CN112633003A - 一种地址识别方法、装置、计算机设备及存储介质 - Google Patents
一种地址识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112633003A CN112633003A CN202011609093.XA CN202011609093A CN112633003A CN 112633003 A CN112633003 A CN 112633003A CN 202011609093 A CN202011609093 A CN 202011609093A CN 112633003 A CN112633003 A CN 112633003A
- Authority
- CN
- China
- Prior art keywords
- address
- word
- question
- named entity
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 239000013598 vector Substances 0.000 claims abstract description 149
- 238000012549 training Methods 0.000 claims abstract description 66
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 230000011218 segmentation Effects 0.000 claims description 57
- 238000006243 chemical reaction Methods 0.000 claims description 27
- 238000001914 filtration Methods 0.000 claims description 23
- 238000002372 labelling Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000009849 deactivation Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 9
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 11
- 238000007781 pre-processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000003190 augmentative effect Effects 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例属于人工智能中的语音处理技术领域,涉及一种基于命名实体识别的地址识别方法、装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,用户的问答音频数据可存储于区块链中。本申请提供的基于命名实体识别的地址识别方法,由于扩充文本向量结合了token的下文词组特征信息与token的特征信息,使得该扩充文本向量可以解决模型在特定范围的后缀中实体提取的泛化能力,而不需要大量的数据进行拟合,减少了模型训练成本,同时又提升了模型识别能力。
Description
技术领域
本申请涉及人工智能中的语音处理技术领域,尤其涉及一种基于命名实体识别的地址识别方法、装置、计算机设备及存储介质。
背景技术
人机对话是人工智能领域重要的领域。对话对于人类来说是基本的沟通能力和技能,而人类在对话中做到自然、通畅的交流,最重要的一点就是理解对方说话的意图。而对于人工智能来说,却需要各个应用和系统协同配合才能达到类似人的效果,然而支撑这个功能的最关键的一步,也是最基础一步,就是正确识别人类说话的意图,这样机器才能做出正确的回应。
现有一种语义识别方法,即通过构建训练语料,并根据该训练语料训练深度学习模型,使得该深度学习模型可以识别与该训练语料相对应的问答文本信息,从而获知问答文本信息是实际意图。
然而,申请人发现传统的语义识别方法普遍不智能,对于半封闭式的人机对话场合,例如:机器人提问,Q:请问你住在A城市还是B城市?客户回答:在**区(县);在上述场合中,传统的语义识别方法则无法确认该**区(县)是属于A城市还是B城市,然而实现上述精确的识别,需要再投入庞大的数据,以覆盖满足上述半封闭式的人机对话场合,由此可见,传统的语义识别方法无法应用于半封闭式的人机对话场合,深度学习模型的泛化能力较弱的问题。
发明内容
本申请实施例的目的在于提出一种基于命名实体识别的地址识别方法、装置、计算机设备及存储介质,以解决传统的语义识别方法无法应用于半封闭式的人机对话场合,深度学习模型的泛化能力较弱的问题。
为了解决上述技术问题,本申请实施例提供一种基于命名实体识别的地址识别方法,采用了如下所述的技术方案:
接收音频采集设备发送的问答音频数据;
对所述问答音频数据进行语音识别操作,得到问答文本信息;
对所述问答文本信息进行地址文本提取操作,得到地址文本信息;
将所述地址文本信息输入至Embedding层进行向量转换操作,得到地址文本向量;
将所述问答文本信息以及所述地址文本向量输入至CNN模型进行特征扩充操作,得到扩充文本向量;
将所述地址文本向量以及所述扩充文本向量输入至训练好的命名实体识别模型进行实体识别操作,得到目标地址结果;
输出所述目标地址结果。
为了解决上述技术问题,本申请实施例还提供一种基于命名实体识别的地址识别装置,采用了如下所述的技术方案:
音频获取模块,用于接收音频采集设备发送的问答音频数据;
语音识别模块,用于对所述问答音频数据进行语音识别操作,得到问答文本信息;
地址文本提取模块,用于对所述问答文本信息进行地址文本提取操作,得到地址文本信息;
向量转换模块,用于将所述地址文本信息输入至Embedding层进行向量转换操作,得到地址文本向量;
特征扩充模块,用于将所述问答文本信息以及所述地址文本向量输入至CNN模型进行特征扩充操作,得到扩充文本向量;
实体识别模块,用于将所述地址文本向量以及所述扩充文本向量输入至训练好的命名实体识别模型进行实体识别操作,得到目标地址结果;
结果输出模块,用于输出所述目标地址结果。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的基于命名实体识别的地址识别方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的基于命名实体识别的地址识别方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请提供的基于命名实体识别的地址识别方法,包括:接收音频采集设备发送的问答音频数据;对所述问答音频数据进行语音识别操作,得到问答文本信息;对所述问答文本信息进行地址文本提取操作,得到地址文本信息;将所述地址文本信息输入至Embedding层进行向量转换操作,得到地址文本向量;将所述问答文本信息以及所述地址文本向量输入至CNN模型进行特征扩充操作,得到扩充文本向量;将所述地址文本向量以及所述扩充文本向量输入至训练好的命名实体识别模型进行实体识别操作,得到目标地址结果;输出所述目标地址结果。在进行人机问答过程中,获取用户答复的音频信息后,将该音频信息转换为文本信息并转换为问答文本向量,将该问答文本向量输入至CNN模型将token的下文词组特征信息与token的特征信息进行结合,得到扩充文本向量,最后将该问答文本向量以及扩充文本向量输入至训练好的命名实体识别模型进行命名实体识别,得到目标地址结果,由于扩充文本向量结合了token的下文词组特征信息与token的特征信息,使得该扩充文本向量可以解决模型在特定范围的后缀中实体提取的泛化能力,而不需要大量的数据进行拟合,减少了模型训练成本,同时又提升了模型识别能力。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一提供的基于命名实体识别的地址识别方法的实现流程图;
图2是图1中步骤S103的一种具体实施方式的流程图;
图3是图1中步骤S103的另一种具体实施方式的流程图;
图4是本申请实施例一提供的获取训练好的命名实体识别模型的实现流程图;
图5是图4中步骤S401的一种具体实施方式的流程图;
图6是图4中步骤S402的一种具体实施方式的流程图;
图7是本申请实施例二提供的基于命名实体识别的地址识别装置的结构示意图:
图8是图7中地址文本提取模块130的一种具体实施方式的结构示意图;
图9是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,示出了本申请实施例一提供的基于命名实体识别的地址识别方法的实现流程图,为了便于说明,仅示出与本申请相关的部分。
上述的基于命名实体识别的地址识别方法,包括以下步骤:
步骤S101:接收音频采集设备发送的问答音频数据。
在本申请实施例中,问答音频数据指的是将电话通话过程的音频信号转换成波形信号的波形文件。
在本申请实施例中,问答音频数据可通过计算机中的数字音频接口将话筒、电话机或其他设备采集到的音频信号导入到计算机中进行录制得到。
步骤S102:对问答音频数据进行语音识别操作,得到问答文本信息。
在本申请实施例中,语音识别操作主要用于将上述采集到的问答音频数据转换成文本数据,具体的,该语音识别操作可以通过模式匹配法实现,在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库,在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。
在本申请实施例中,问答文本信息可以针以及用户的波形特征对语音识别到的问答文本信息进行区分,并通过“一问一答”的形式展示该文本内容信息,从而获得客服人员的问答文本信息和用户的问答文本信息。
步骤S103:对问答文本信息进行地址文本提取操作,得到地址文本信息。
在本申请实施例中,为了获取问答文本信息中可能出现的地址词汇,需要对问答文本信息进行地址文本提取操作,得到地址文本信息。
在本申请实施例中,地址文本提取操作可以是对问答文本信息进行分词操作,得到多个词语,基于停用词表对词语进行过滤操作,得到过滤后的地址文本信息。
在本申请实施例中,地址文本提取操作还可以是对问答文本信息进行分词操作,得到多个词语,基于停用词表对词语进行过滤操作,得到过滤后的待确认词语,计算各待确认词语在问答文本信息中的第一词频,读取本地语料库,计算各待确认词语在本地语料库中的第二词频,根据第一词频与第二词频的乘积对待确认词语进行过滤,得到地址文本信息。
步骤S104:将地址文本信息输入至Embedding层进行向量转换操作,得到地址文本向量。
在本申请实施例中,向量转换操作指的是将该问答文本信息输入至Embedding层进行向量转换,以得到该问答文本向量。
步骤S105:将问答文本信息以及地址文本向量输入至CNN模型进行特征扩充操作,得到扩充文本向量。
在本申请实施例中,CNN通过滑动窗口对得到的问答文本向量进行扩充处理,即增加上下文的特征信息,得到扩充有上下文特征信息的扩充文本向量。
步骤S106:将地址文本向量以及扩充文本向量输入至训练好的命名实体识别模型进行命名实体识别操作,得到目标地址结果。
在本申请实施例中,将扩充有上下文特征信息的扩充文本向量与原有的问答文本向量结合并输入至训练好的命名实体识别模型中,通过结合CNN模型处理得到的扩充文本向量和向量转换得到的问答文本向量,增加了上下文的特征信息,提升了训练好的命名实体识别模型在特定范围的后缀中实体提取的泛化能力,尤其是长尾的地址实体(如:***蒙古自治县),因为通过CNN滑动窗口,能将“蒙古自治县”这样一个长尾后缀更多的上下文信息给到下游网络层进行模型参数学习,提升模型泛化能力。
在本申请实施例中,通过NER模型将客户回答的***区抽取出来,然后通过全国地址库进行索引,通过字、音模糊匹配,进行地址检索,判断客户说的地址是否真实存在已经其所属行政级别,若客户所说的地址行政级别是区(县),则将客户说的地址所属城市进行检索,然后将客户回答的文本中的区(县)行政级别地址替换为其所属的城市,完成文本的预处理。
步骤S107:输出目标地址结果。
在本申请实施例中,提供的基于命名实体识别的地址识别方法,包括:接收音频采集设备发送的问答音频数据;对问答音频数据进行语音识别操作,得到问答文本信息;对问答文本信息进行地址文本提取操作,得到地址文本信息;将地址文本信息输入至Embedding层进行向量转换操作,得到地址文本向量;将问答文本信息以及地址文本向量输入至CNN模型进行特征扩充操作,得到扩充文本向量;将地址文本向量以及扩充文本向量输入至训练好的命名实体识别模型进行实体识别操作,得到目标地址结果;输出目标地址结果。在进行人机问答过程中,获取用户答复的音频信息后,将该音频信息转换为文本信息并转换为问答文本向量,将该问答文本向量输入至CNN模型将token的下文词组特征信息与token的特征信息进行结合,得到扩充文本向量,最后将该问答文本向量以及扩充文本向量输入至训练好的命名实体识别模型进行命名实体识别,得到目标地址结果,由于扩充文本向量结合了token的下文词组特征信息与token的特征信息,使得该扩充文本向量可以解决模型在特定范围的后缀中实体提取的泛化能力,而不需要大量的数据进行拟合,减少了模型训练成本,同时又提升了模型识别能力。
继续参阅图2,示出了是图1中步骤S103的一种具体实施方式的流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,步骤S103具体包括:步骤S201以及步骤S202。
步骤S201:对问答文本信息进行分词操作,得到多个词语。
在本申请实施例中,分词操作的方式可以是基于字符串匹配,即扫描字符串,如果发现字符串的子串和词典中的词相同,就算匹配,比如机械分词方法。这类分词通常会加入一些启发式规则,比如“正向/反向最大匹配”,“长词优先”等。第二类是基于统计以及机器学习的分词方法,它们基于人工标注的词性和统计特征,对中文进行建模,即根据观测到的数据(标注好的语料)对模型参数进行训练,在分词阶段再通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果,最终得到一个个的地址文本信息。在一些实施例中的地址文本信息可以是对所有词语的统称,不一定是问答文本信息中主要词语的名称。
步骤S202:基于停用词表对词语进行过滤操作,得到过滤后的地址文本信息。
在本申请实施例中,在对问答文本信息进行分词后,还可以根据停用词表对分词后得到的地址文本信息进行过滤把一些不重要的词(也叫停用词)去掉,作为示例,例如:“啊”、“哦”等等。
继续参阅图3,示出了是图1中步骤S103的另一种具体实施方式的流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,步骤S103具体包括:步骤S301、步骤S302、步骤S303、步骤S304以及步骤S305。
步骤S301:对问答文本信息进行分词操作,得到多个词语。
在本申请实施例中,分词操作的方式可以是基于字符串匹配,即扫描字符串,如果发现字符串的子串和词典中的词相同,就算匹配,比如机械分词方法。这类分词通常会加入一些启发式规则,比如“正向/反向最大匹配”,“长词优先”等。第二类是基于统计以及机器学习的分词方法,它们基于人工标注的词性和统计特征,对中文进行建模,即根据观测到的数据(标注好的语料)对模型参数进行训练,在分词阶段再通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果,最终得到一个个的地址文本信息。在一些实施例中的地址文本信息可以是对所有词语的统称,不一定是问答文本信息中主要词语的名称。
步骤S302:基于停用词表对词语进行过滤操作,得到过滤后的待确认词语。
在本申请实施例中,在对问答文本信息进行分词后,还可以根据停用词表对分词后得到的地址文本信息进行过滤把一些不重要的词(也叫停用词)去掉,作为示例,例如:“啊”、“哦”等等。
步骤S303:计算各待确认词语在问答文本信息中的第一词频。
在本申请实施例中,一个词在一段文本中的出现次数较多,那么它是停用词的概率就比较大,该第一词频主要用于判断该待确认词语是否为停用词。
步骤S304:读取本地语料库,计算各待确认词语在本地语料库中的第二词频。
在本申请实施例中,由于部分词语出现的频率较高同时重要程度也较大,为了避免被第一词频确认为停用词,因此需要在当前语料中出现次数的基础上再引入一个词频,即,词语在语料库中出现词频,作为第二词频。
在本申请实施例中,我们需要定义一个语料库,用来模拟语言的使用环境,来计算第二词频,具体地,可以通过公式(1)计算:
其中,K2为第二词频、n为语料库中文档的总数、m为包含某词语的文档数。如果一个词语越常见,则K2的大小越接近于0,其中,分母之所以要加1,是为了避免分母为0,即所有的文档都包含该词语。可以看到,如果一个词语,比如“任我行”在输入文本中出现,但是其第二词频又比较低,那么说明“任我行”可能在当前的输入文本中比较重要,说明“任我行”一词极有可能是本次输入文本中的主干词语。具体地,以K1*K2的结果来表示一个词语是否可能为主干词语,可以得到更加精确的主干词语,不仅可以降低后续对词语的计算量,而且还能提高对实体识别的准确度。而且,通过这种方式自动提取主干词语简单快速,比较符合实际情况。
步骤S305:根据第一词频与第二词频的乘积对待确认词语进行过滤,得到地址文本信息。
在本申请实施例中,在对问答文本信息进行分词操作后,基于停用词表,通过正则表达式对词语进行过滤,得到待确认词语,然后计算各待确认词语在问答文本信息中的第一词频,在获取待确认词语在语料库中的第二词频,最后根据第一词频与第二词频的乘机对待确认词语进行过滤,得到过滤后的地址文本信息。
继续参阅图4,示出了本申请实施例一提供的获取训练好的命名实体识别模型的实现流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,在步骤S106之前,还包括:步骤S401以及步骤S402。
步骤S401:获取初始训练集和待识别数据集。
在本申请实施例中,初始训练集是对标注数据集进行如下预处理后得到的数据集:将标注数据集中的文本按照分句规则进行分句得到多个句子;根据预设的词语表对每个句子进行分词,得到由多个词语组成的句子,每个词语带有标签;查询词语词典和标签词典获取每个词语的词语ID和标签ID以将句子转换成以词语ID和标签ID形式表示;将句子进行填充或截断以将所有句子统一为规定长度。待识别数据集是对无标注数据集进行如下预处理后得到的数据集:将无标注数据集中的文本按照分句规则进行分句得到多个句子;根据预设的词语表对每个句子进行分词,得到由多个词语组成的句子;查询词语词典获取每个词语的词语ID以将句子转换成以词语ID形式表示;将句子进行填充或截断以将所有句子统一为规定长度。按照分句规则进行分句可以是使用正则表达式进行匹配的方式进行分句。
步骤S402:基于初始训练集以及待识别数据集对初始命名实体识别模型进行多轮训练操作直至其收敛,得到训练好的命名实体识别模型,其中,每轮训练操作包括:基于本轮训练集对初始命名实体识别模型进行监督训练得到经监督训练后的初始命名实体识别模型;基于训练好的命名实体识别模型经监督训练后的初始命名实体识别模型对待识别数据集进行命名实体标注,得到弱标注的待识别数据集;从本轮得到的弱标注的待识别数据集中提取子集,将子集以及初始训练集组成用于下一轮训练的训练集。
在本申请实施例中,将训练过程中命名实体识别模型对待识别数据集进行命名实体标注的弱标注作为待识别数据集的标注结果并选取其子集与初始训练集组成下一轮训练的训练集,待识别数据集的规模大小可按需设置,由此用该规模的待识别数据集扩充用于训练命名实体识别模型的训练集的大小,使得最终的命名实体识别模型具有更佳的泛化能力,在待识别数据集上的识别效果更好。
继续参阅图5,示出了图4中步骤S401的一种具体实施方式的流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,上述步骤S401具体包括:步骤S501、步骤S502、步骤S503、步骤S504、步骤S505、步骤S506、步骤S507、步骤S508以及步骤S509。
步骤S501:读取本地数据库,在本地数据库中获取预标注数据集以及无标注数据集。
在本申请实施例中,初始训练集是对标注数据集进行如下预处理后得到的数据集;待识别数据集是对无标注数据集进行如下预处理后得到的数据集。
步骤S502:将预标注数据集中的文本按照分句规则进行分句操作,得到多个预标注句子。
步骤S503:基于预设词语表对每个预标注句子进行分词操作,得到由多个词语组成的预标注句子,每个词语分别带有标签信息。
在本申请实施例中,词语表可以是谷歌预训练的BERT模型对应的词语表。
步骤S504:查询词语词典和标签词典获取每个词语的词语标识和标签标识以将预标注句子转换成以词语标识和标签标识形式进行表示。
在本申请实施例中,词语词典、标签词典可以是谷歌预训练的BERT模型对应的词语词典、标签词典。词语词典中每个词语都有一个对应的词语ID。此外词语词典中还设有未知词对应的词语ID,即,如果在词语词典中查询一个词语的词语ID,但是该词语没有记录在词典中,则查询反馈的结果为未知词对应的词语ID。标签词典中每个标签都有一个对应的标签ID。
步骤S505:对预标注句子进行长度统一操作,得到初始训练集。
在本申请实施例中,长度统一操作指的是将句子填充或者截断成规定长度,该规定长度是指规定的句子最长长度,一般设置为128,即句子最长包含128个词语。例如,一个句子不足128个词语则在句子末尾填充0补齐至128个词语,多于128个词语则从超出处截断。
步骤S506:将无标注数据集中的文本按照分句规则进行分句操作,得到多个无标注句子。
步骤S507:基于预设词语表对每个无标注句子进行分词操作,得到由多个词语组成的无标注句子。
步骤S508:基于词语词典将无标注句子转换成以词语标识形式进行表示。
步骤S509:对无标注句子进行长度统一操作,得到待识别数据集。
继续参阅图6,示出了图4中步骤S402的一种具体实施方式的流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,步骤S402具体包括:步骤S601、步骤S602、步骤S603以及步骤S604。
步骤S601:将本轮数据集中的本轮句子输入至命名实体识别模型中BERT-CRF模型的BERT层,得到本轮句子中词语的编码向量。
步骤S602:将编码向量输入BERT-CRF模型的CRF层,得到由本轮句子中所有词语对应的所有标签的概率序列组成的本轮句子的概率矩阵。
步骤S603:基于维特比算法获取每个本轮句子的概率矩阵的最优标注序列。
步骤S604:根据最优标注序列得到词语的识别标签标识,并基于词语的识别标签标识与标注数据集中词语的标签标识调整命名实体识别模型中BERT-CRF模型的参数。
在本申请实施例中,现有技术用BERT层+全连接层解决序列标注问题,在命名实体识别时,经过BERT层后得到的编码向量通过全连接层映射到标签集合后,单个词语的输出向量再经过Softmax处理,每一维度的数值就表示该词语为某一类别的概率,基于此数据便可计算损失并训练模型。而本发明将全连接层替换为CRF层,通过BERT-CRF模型更好地捕捉标签之间的结构特性。BERT-CRF模型的结构包括依次连接的BERT层和CRF层,句子中的词语(Word)输入BERT层得到编码向量,将该编码向量作为CRF层的输入,得到词语对应的所有标签的概率序列组成的概率矩阵,然后根据概率矩阵用维特比算法进行解码,得到最优标注序列,最优标注序列中含有词语对应的标签(Label)。
综上,本申请提供的基于命名实体识别的地址识别方法,包括:接收音频采集设备发送的问答音频数据;对问答音频数据进行语音识别操作,得到问答文本信息;对问答文本信息进行地址文本提取操作,得到地址文本信息;将地址文本信息输入至Embedding层进行向量转换操作,得到地址文本向量;将问答文本信息以及地址文本向量输入至CNN模型进行特征扩充操作,得到扩充文本向量;将地址文本向量以及扩充文本向量输入至训练好的命名实体识别模型进行实体识别操作,得到目标地址结果;输出目标地址结果。在进行人机问答过程中,获取用户答复的音频信息后,将该音频信息转换为文本信息并转换为问答文本向量,将该问答文本向量输入至CNN模型将token的下文词组特征信息与token的特征信息进行结合,得到扩充文本向量,最后将该问答文本向量以及扩充文本向量输入至训练好的命名实体识别模型进行命名实体识别,得到目标地址结果,由于扩充文本向量结合了token的下文词组特征信息与token的特征信息,使得该扩充文本向量可以解决模型在特定范围的后缀中实体提取的泛化能力,而不需要大量的数据进行拟合,减少了模型训练成本,同时又提升了模型识别能力。
需要强调的是,为进一步保证上述问答音频数据的私密和安全性,上述问答音频数据还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
实施例二
进一步参考图7,作为对上述图1所示方法的实现,本申请提供了一种基于命名实体识别的地址识别装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图7所示,本实施例的基于命名实体识别的地址识别装置100包括:音频获取模块110、语音识别模块120、地址文本提取模块130、向量转换模块140、特征扩充模块150、实体识别模块160以及结果输出模块170。其中:
音频获取模块110,用于接收音频采集设备发送的问答音频数据;
语音识别模块120,用于对问答音频数据进行语音识别操作,得到问答文本信息;
地址文本提取模块130,用于对问答文本信息进行地址文本提取操作,得到地址文本信息;
向量转换模块140,用于将地址文本信息输入至Embedding层进行向量转换操作,得到地址文本向量;
特征扩充模块150,用于将问答文本信息以及地址文本向量输入至CNN模型进行特征扩充操作,得到扩充文本向量;
实体识别模块160,用于将地址文本向量以及扩充文本向量输入至训练好的命名实体识别模型进行实体识别操作,得到目标地址结果;
结果输出模块170,用于输出目标地址结果。
在本申请实施例中,问答音频数据指的是将电话通话过程的音频信号转换成波形信号的波形文件。
在本申请实施例中,问答音频数据可通过计算机中的数字音频接口将话筒、电话机或其他设备采集到的音频信号导入到计算机中进行录制得到。
在本申请实施例中,语音识别操作主要用于将上述采集到的问答音频数据转换成文本数据,具体的,该语音识别操作可以通过模式匹配法实现,在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库,在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。
在本申请实施例中,问答文本信息可以针以及用户的波形特征对语音识别到的问答文本信息进行区分,并通过“一问一答”的形式展示该文本内容信息,从而获得客服人员的问答文本信息和用户的问答文本信息。
在本申请实施例中,为了获取问答文本信息中可能出现的地址词汇,需要对问答文本信息进行地址文本提取操作,得到地址文本信息。
在本申请实施例中,地址文本提取操作可以是对问答文本信息进行分词操作,得到多个词语,基于停用词表对词语进行过滤操作,得到过滤后的地址文本信息。
在本申请实施例中,地址文本提取操作还可以是对问答文本信息进行分词操作,得到多个词语,基于停用词表对词语进行过滤操作,得到过滤后的待确认词语,计算各待确认词语在问答文本信息中的第一词频,读取本地语料库,计算各待确认词语在本地语料库中的第二词频,根据第一词频与第二词频的乘积对待确认词语进行过滤,得到地址文本信息。
在本申请实施例中,向量转换操作指的是将该问答文本信息输入至Embedding层进行向量转换,以得到该问答文本向量。
在本申请实施例中,CNN通过滑动窗口对得到的问答文本向量进行扩充处理,即增加上下文的特征信息,得到扩充有上下文特征信息的扩充文本向量。
在本申请实施例中,将扩充有上下文特征信息的扩充文本向量与原有的问答文本向量结合并输入至训练好的命名实体识别模型中,通过结合CNN模型处理得到的扩充文本向量和向量转换得到的问答文本向量,增加了上下文的特征信息,提升了训练好的命名实体识别模型在特定范围的后缀中实体提取的泛化能力,尤其是长尾的地址实体(如:***蒙古自治县),因为通过CNN滑动窗口,能将“蒙古自治县”这样一个长尾后缀更多的上下文信息给到下游网络层进行模型参数学习,提升模型泛化能力。
在本申请实施例中,通过NER模型将客户回答的***区抽取出来,然后通过全国地址库进行索引,通过字、音模糊匹配,进行地址检索,判断客户说的地址是否真实存在已经其所属行政级别,若客户所说的地址行政级别是区(县),则将客户说的地址所属城市进行检索,然后将客户回答的文本中的区(县)行政级别地址替换为其所属的城市,完成文本的预处理。
在本申请实施例中,提供的基于命名实体识别的地址识别装置,包括:音频获取模块,用于接收音频采集设备发送的问答音频数据;语音识别模块,用于对问答音频数据进行语音识别操作,得到问答文本信息;地址文本提取模块,用于对问答文本信息进行地址文本提取操作,得到地址文本信息;向量转换模块,用于将地址文本信息输入至Embedding层进行向量转换操作,得到地址文本向量;特征扩充模块,用于将问答文本信息以及地址文本向量输入至CNN模型进行特征扩充操作,得到扩充文本向量;实体识别模块,用于将地址文本向量以及扩充文本向量输入至训练好的命名实体识别模型进行实体识别操作,得到目标地址结果;结果输出模块,用于输出目标地址结果。在进行人机问答过程中,获取用户答复的音频信息后,将该音频信息转换为文本信息并转换为问答文本向量,将该问答文本向量输入至CNN模型将token的下文词组特征信息与token的特征信息进行结合,得到扩充文本向量,最后将该问答文本向量以及扩充文本向量输入至训练好的命名实体识别模型进行命名实体识别,得到目标地址结果,由于扩充文本向量结合了token的下文词组特征信息与token的特征信息,使得该扩充文本向量可以解决模型在特定范围的后缀中实体提取的泛化能力,而不需要大量的数据进行拟合,减少了模型训练成本,同时又提升了模型识别能力。
继续参阅图8,示出了图7中地址文本提取模块130的一种具体实施方式的结构示意图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,上述地址文本提取模块130包括:第一分词子模块131以及第一过滤子模块132。其中:
第一分词子模块131,用于对问答文本信息进行分词操作,得到多个词语;
第一过滤子模块132,用于基于停用词表对词语进行过滤操作,得到过滤后的地址文本信息。
在本申请实施例中,分词操作的方式可以是基于字符串匹配,即扫描字符串,如果发现字符串的子串和词典中的词相同,就算匹配,比如机械分词方法。这类分词通常会加入一些启发式规则,比如“正向/反向最大匹配”,“长词优先”等。第二类是基于统计以及机器学习的分词方法,它们基于人工标注的词性和统计特征,对中文进行建模,即根据观测到的数据(标注好的语料)对模型参数进行训练,在分词阶段再通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果,最终得到一个个的地址文本信息。在一些实施例中的地址文本信息可以是对所有词语的统称,不一定是问答文本信息中主要词语的名称。
在本申请实施例中,在对问答文本信息进行分词后,还可以根据停用词表对分词后得到的地址文本信息进行过滤把一些不重要的词(也叫停用词)去掉,作为示例,例如:“啊”、“哦”等等。
在本实施例的一些可选的实现方式中,上述地址文本提取模块130包括:第二分词子模块、第二过滤子模块、第一词频计算子模块、第二词频计算子模块以及第三过滤子模块。其中:
第二分词子模块,用于对问答文本信息进行分词操作,得到多个词语;
第二过滤子模块,用于基于停用词表对词语进行过滤操作,得到过滤后的待确认词语;
第一词频计算子模块,用于计算各待确认词语在问答文本信息中的第一词频;
第二词频计算子模块,用于读取本地语料库,计算各待确认词语在本地语料库中的第二词频;
第三过滤子模块,用于根据第一词频与第二词频的乘积对待确认词语进行过滤,得到地址文本信息。
在本实施例的一些可选的实现方式中,上述基于命名实体识别的地址识别装置100还包括:训练数据获取模块以及多轮训练模块。其中:
训练数据获取模块,用于获取初始训练集和待识别数据集;
多轮训练模块,用于基于初始训练集以及待识别数据集对初始命名实体识别模型进行多轮训练操作直至其收敛,得到训练好的命名实体识别模型;其中,每轮训练操作包括:基于本轮训练集对初始命名实体识别模型进行监督训练得到经监督训练后的初始命名实体识别模型;基于经监督训练后的初始命名实体识别模型对待识别数据集进行命名实体标注,得到弱标注的待识别数据集;从本轮得到的弱标注的待识别数据集中提取子集,将子集以及初始训练集组成用于下一轮训练的训练集。
在本实施例的一些可选的实现方式中,上述训练数据获取模块包括:训练数据获取子模块、第一分句子模块、第三分词子模块、第一句子转换子模块、第一长度统一子模块、第二分句子模块、第四分词子模块、第二句子转换子模块以及第二长度统一子模块。其中:
训练数据获取子模块,用于读取本地数据库,在本地数据库中获取预标注数据集以及无标注数据集;
第一分句子模块,用于将预标注数据集中的文本按照分句规则进行分句操作,得到多个预标注句子;
第三分词子模块,用于基于预设词语表对每个预标注句子进行分词操作,得到由多个词语组成的预标注句子,每个词语分别带有标签信息;
第一句子转换子模块,用于查询词语词典和标签词典获取每个词语的词语标识和标签标识以将预标注句子转换成以词语标识和标签标识形式进行表示;
第一长度统一子模块,用于对预标注句子进行长度统一操作,得到初始训练集;
第二分句子模块,用于将无标注数据集中的文本按照分句规则进行分句操作,得到多个无标注句子;
第四分词子模块,用于基于预设词语表对每个无标注句子进行分词操作,得到由多个词语组成的无标注句子;
第二句子转换子模块,用于基于词语词典将无标注句子转换成以词语标识形式进行表示;
第二长度统一子模块,用于对无标注句子进行长度统一操作,得到待识别数据集。
在本实施例的一些可选的实现方式中,上述多轮训练模块具体包括:数据输入子模块、概率矩阵组成子模块、最优序列获取子模块以及参数调整子模块。其中:
数据输入子模块,用于将本轮数据集中的本轮句子输入至命名实体识别模型中BERT-CRF模型的BERT层,得到本轮句子中词语的编码向量;
概率矩阵组成子模块,用于将编码向量输入BERT-CRF模型的CRF层,得到由本轮句子中所有词语对应的所有标签的概率序列组成的本轮句子的概率矩阵;
最优序列获取子模块,用于基于维特比算法获取每个本轮句子的概率矩阵的最优标注序列;
参数调整子模块,用于根据最优标注序列得到词语的识别标签标识,并基于词语的识别标签标识与标注数据集中词语的标签标识调整命名实体识别模型中BERT-CRF模型的参数。
综上,本申请提供的基于命名实体识别的地址识别装置,包括:音频获取模块,用于接收音频采集设备发送的问答音频数据;语音识别模块,用于对问答音频数据进行语音识别操作,得到问答文本信息;地址文本提取模块,用于对问答文本信息进行地址文本提取操作,得到地址文本信息;向量转换模块,用于将地址文本信息输入至Embedding层进行向量转换操作,得到地址文本向量;特征扩充模块,用于将问答文本信息以及地址文本向量输入至CNN模型进行特征扩充操作,得到扩充文本向量;实体识别模块,用于将地址文本向量以及扩充文本向量输入至训练好的命名实体识别模型进行实体识别操作,得到目标地址结果;结果输出模块,用于输出目标地址结果。在进行人机问答过程中,获取用户答复的音频信息后,将该音频信息转换为文本信息并转换为问答文本向量,将该问答文本向量输入至CNN模型将token的下文词组特征信息与token的特征信息进行结合,得到扩充文本向量,最后将该问答文本向量以及扩充文本向量输入至训练好的命名实体识别模型进行命名实体识别,得到目标地址结果,由于扩充文本向量结合了token的下文词组特征信息与token的特征信息,使得该扩充文本向量可以解决模型在特定范围的后缀中实体提取的泛化能力,而不需要大量的数据进行拟合,减少了模型训练成本,同时又提升了模型识别能力。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图9,图9为本实施例计算机设备基本结构框图。
所述计算机设备200包括通过系统总线相互通信连接存储器210、处理器220、网络接口230。需要指出的是,图中仅示出了具有组件210-230的计算机设备200,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器210至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器210可以是所述计算机设备200的内部存储单元,例如该计算机设备200的硬盘或内存。在另一些实施例中,所述存储器210也可以是所述计算机设备200的外部存储设备,例如该计算机设备200上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器210还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中,所述存储器210通常用于存储安装于所述计算机设备200的操作系统和各类应用软件,例如基于命名实体识别的地址识别方法的计算机可读指令等。此外,所述存储器210还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器220在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器220通常用于控制所述计算机设备200的总体操作。本实施例中,所述处理器220用于运行所述存储器210中存储的计算机可读指令或者处理数据,例如运行所述基于命名实体识别的地址识别方法的计算机可读指令。
所述网络接口230可包括无线网络接口或有线网络接口,该网络接口230通常用于在所述计算机设备200与其他电子设备之间建立通信连接。
本申请提供的基于命名实体识别的地址识别方法,在进行人机问答过程中,获取用户答复的音频信息后,将该音频信息转换为文本信息并转换为问答文本向量,将该问答文本向量输入至CNN模型将token的下文词组特征信息与token的特征信息进行结合,得到扩充文本向量,最后将该问答文本向量以及扩充文本向量输入至训练好的命名实体识别模型进行命名实体识别,得到目标地址结果,由于扩充文本向量结合了token的下文词组特征信息与token的特征信息,使得该扩充文本向量可以解决模型在特定范围的后缀中实体提取的泛化能力,而不需要大量的数据进行拟合,减少了模型训练成本,同时又提升了模型识别能力。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于命名实体识别的地址识别方法的步骤。
本申请提供的基于命名实体识别的地址识别方法,在进行人机问答过程中,获取用户答复的音频信息后,将该音频信息转换为文本信息并转换为问答文本向量,将该问答文本向量输入至CNN模型将token的下文词组特征信息与token的特征信息进行结合,得到扩充文本向量,最后将该问答文本向量以及扩充文本向量输入至训练好的命名实体识别模型进行命名实体识别,得到目标地址结果,由于扩充文本向量结合了token的下文词组特征信息与token的特征信息,使得该扩充文本向量可以解决模型在特定范围的后缀中实体提取的泛化能力,而不需要大量的数据进行拟合,减少了模型训练成本,同时又提升了模型识别能力。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种基于命名实体识别的地址识别方法,其特征在于,包括下述步骤:
接收音频采集设备发送的问答音频数据;
对所述问答音频数据进行语音识别操作,得到问答文本信息;
对所述问答文本信息进行地址文本提取操作,得到地址文本信息;
将所述地址文本信息输入至Embedding层进行向量转换操作,得到地址文本向量;
将所述问答文本信息以及所述地址文本向量输入至CNN模型进行特征扩充操作,得到扩充文本向量;
将所述地址文本向量以及所述扩充文本向量输入至训练好的命名实体识别模型进行实体识别操作,得到目标地址结果;
输出所述目标地址结果。
2.根据权利要求1所述的基于命名实体识别的地址识别方法,其特征在于,所述对所述问答文本信息进行地址文本提取操作,得到地址文本信息的步骤,具体包括:
对所述问答文本信息进行分词操作,得到多个词语;
基于停用词表对所述词语进行过滤操作,得到过滤后的所述地址文本信息。
3.根据权利要求1所述的基于命名实体识别的地址识别方法,其特征在于,所述对所述问答文本信息进行地址文本提取操作,得到地址文本信息的步骤,具体包括:
对所述问答文本信息进行分词操作,得到多个词语;
基于停用词表对所述词语进行过滤操作,得到过滤后的待确认词语;
计算各所述待确认词语在所述问答文本信息中的第一词频;
读取本地语料库,计算各所述待确认词语在所述本地语料库中的第二词频;
根据所述第一词频与所述第二词频的乘积对所述待确认词语进行过滤,得到所述地址文本信息。
4.根据权利要求1所述的基于命名实体识别的地址识别方法,其特征在于,在所述将所述地址文本向量以及所述扩充文本向量输入至训练好的命名实体识别模型进行实体识别操作,得到目标地址结果的步骤之前,还包括:
获取初始训练集和待识别数据集;
基于所述初始训练集以及所述待识别数据集对初始命名实体识别模型进行多轮训练操作直至其收敛,得到所述训练好的命名实体识别模型;其中,所述每轮训练操作包括:基于本轮训练集对所述初始命名实体识别模型进行监督训练得到经监督训练后的初始命名实体识别模型;基于所述经监督训练后的初始命名实体识别模型对所述待识别数据集进行命名实体标注,得到弱标注的待识别数据集;从所述本轮得到的所述弱标注的待识别数据集中提取子集,将所述子集以及所述初始训练集组成用于下一轮训练的训练集。
5.根据权利要求4所述的基于命名实体识别的地址识别方法,其特征在于,所述获取初始训练集和待识别数据集的步骤,具体包括:
读取本地数据库,在所述本地数据库中获取预标注数据集以及无标注数据集;
将所述预标注数据集中的文本按照分句规则进行分句操作,得到多个预标注句子;
基于预设词语表对所述每个预标注句子进行分词操作,得到由多个词语组成的预标注句子,所述每个词语分别带有标签信息;
查询词语词典和标签词典获取每个词语的词语标识和标签标识以将所述预标注句子转换成以词语标识和标签标识形式进行表示;
对所述预标注句子进行长度统一操作,得到所述初始训练集;
将所述无标注数据集中的文本按照所述分句规则进行分句操作,得到多个无标注句子;
基于预设词语表对所述每个无标注句子进行所述分词操作,得到由多个词语组成的无标注句子;
基于所述词语词典将所述无标注句子转换成以词语标识形式进行表示;
对所述无标注句子进行所述长度统一操作,得到所述待识别数据集。
6.根据权利要求4所述的基于命名实体识别的地址识别方法,其特征在于,所述基于所述初始训练集以及所述待识别数据集对初始命名实体识别模型进行多轮训练操作直至其收敛,得到所述训练好的命名实体识别模型的步骤,具体包括:
将所述本轮数据集中的本轮句子输入至命名实体识别模型中BERT-CRF模型的BERT层,得到所述本轮句子中词语的编码向量;
将所述编码向量输入BERT-CRF模型的CRF层,得到由所述本轮句子中所有词语对应的所有标签的概率序列组成的所述本轮句子的概率矩阵;
基于维特比算法获取每个所述本轮句子的概率矩阵的最优标注序列;
根据所述最优标注序列得到所述词语的识别标签标识,并基于所述词语的识别标签标识与所述标注数据集中词语的标签标识调整命名实体识别模型中BERT-CRF模型的参数。
7.一种基于命名实体识别的地址识别装置,其特征在于,包括:
音频获取模块,用于接收音频采集设备发送的问答音频数据;
语音识别模块,用于对所述问答音频数据进行语音识别操作,得到问答文本信息;
地址文本提取模块,用于对所述问答文本信息进行地址文本提取操作,得到地址文本信息;
向量转换模块,用于将所述地址文本信息输入至Embedding层进行向量转换操作,得到地址文本向量;
特征扩充模块,用于将所述问答文本信息以及所述地址文本向量输入至CNN模型进行特征扩充操作,得到扩充文本向量;
实体识别模块,用于将所述地址文本向量以及所述扩充文本向量输入至训练好的命名实体识别模型进行实体识别操作,得到目标地址结果;
结果输出模块,用于输出所述目标地址结果。
8.根据权利要求7所述的基于命名实体识别的地址识别装置,其特征在于,所述地址文本提取模块包括:
第一分词子模块,用于对所述问答文本信息进行分词操作,得到多个词语;
第一过滤子模块,用于基于停用词表对所述词语进行过滤操作,得到过滤后的所述地址文本信息。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一项所述的基于命名实体识别的地址识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至6中任一项所述的基于命名实体识别的地址识别方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011609093.XA CN112633003B (zh) | 2020-12-30 | 2020-12-30 | 一种地址识别方法、装置、计算机设备及存储介质 |
PCT/CN2021/090433 WO2022142011A1 (zh) | 2020-12-30 | 2021-04-28 | 一种地址识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011609093.XA CN112633003B (zh) | 2020-12-30 | 2020-12-30 | 一种地址识别方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112633003A true CN112633003A (zh) | 2021-04-09 |
CN112633003B CN112633003B (zh) | 2024-05-31 |
Family
ID=75286641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011609093.XA Active CN112633003B (zh) | 2020-12-30 | 2020-12-30 | 一种地址识别方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112633003B (zh) |
WO (1) | WO2022142011A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254639A (zh) * | 2021-05-24 | 2021-08-13 | 珠海大横琴科技发展有限公司 | 一种监控报警定位跟踪方法、装置及电子设备 |
CN113535880A (zh) * | 2021-09-16 | 2021-10-22 | 阿里巴巴达摩院(杭州)科技有限公司 | 地理信息确定方法、装置、电子设备及计算机存储介质 |
CN113539270A (zh) * | 2021-07-22 | 2021-10-22 | 阳光保险集团股份有限公司 | 一种位置识别方法、装置、电子设备和存储介质 |
CN113836920A (zh) * | 2021-10-19 | 2021-12-24 | 平安普惠企业管理有限公司 | 地址信息的识别方法、装置、计算机设备及存储介质 |
WO2022142011A1 (zh) * | 2020-12-30 | 2022-07-07 | 平安科技(深圳)有限公司 | 一种地址识别方法、装置、计算机设备及存储介质 |
CN116050402A (zh) * | 2022-05-23 | 2023-05-02 | 荣耀终端有限公司 | 文本地址识别方法、电子设备及存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115081449B (zh) * | 2022-08-23 | 2022-11-04 | 北京睿企信息科技有限公司 | 一种地址识别方法及系统 |
CN116991983B (zh) * | 2023-09-27 | 2024-02-02 | 之江实验室 | 一种面向公司资讯文本的事件抽取方法及系统 |
CN117992600B (zh) * | 2024-04-07 | 2024-06-11 | 之江实验室 | 一种业务执行方法、装置、存储介质以及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060047500A1 (en) * | 2004-08-31 | 2006-03-02 | Microsoft Corporation | Named entity recognition using compiler methods |
CN103440311A (zh) * | 2013-08-27 | 2013-12-11 | 深圳市华傲数据技术有限公司 | 一种地名实体识别的方法及系统 |
CN109299469A (zh) * | 2018-10-29 | 2019-02-01 | 复旦大学 | 一种在长文本中识别复杂住址的方法 |
CN110287479A (zh) * | 2019-05-20 | 2019-09-27 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
CN110442856A (zh) * | 2019-06-14 | 2019-11-12 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
CN111950287A (zh) * | 2020-08-20 | 2020-11-17 | 广东工业大学 | 一种基于文本的实体识别方法及相关装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10224030B1 (en) * | 2013-03-14 | 2019-03-05 | Amazon Technologies, Inc. | Dynamic gazetteers for personalized entity recognition |
CN110083831B (zh) * | 2019-04-16 | 2023-04-18 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
JP7041281B2 (ja) * | 2019-07-04 | 2022-03-23 | 浙江大学 | ディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法 |
CN111738004B (zh) * | 2020-06-16 | 2023-10-27 | 中国科学院计算技术研究所 | 一种命名实体识别模型的训练方法及命名实体识别的方法 |
CN111933129B (zh) * | 2020-09-11 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 音频处理方法、语言模型的训练方法、装置及计算机设备 |
CN112633003B (zh) * | 2020-12-30 | 2024-05-31 | 平安科技(深圳)有限公司 | 一种地址识别方法、装置、计算机设备及存储介质 |
-
2020
- 2020-12-30 CN CN202011609093.XA patent/CN112633003B/zh active Active
-
2021
- 2021-04-28 WO PCT/CN2021/090433 patent/WO2022142011A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060047500A1 (en) * | 2004-08-31 | 2006-03-02 | Microsoft Corporation | Named entity recognition using compiler methods |
CN103440311A (zh) * | 2013-08-27 | 2013-12-11 | 深圳市华傲数据技术有限公司 | 一种地名实体识别的方法及系统 |
CN109299469A (zh) * | 2018-10-29 | 2019-02-01 | 复旦大学 | 一种在长文本中识别复杂住址的方法 |
CN110287479A (zh) * | 2019-05-20 | 2019-09-27 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
WO2020232861A1 (zh) * | 2019-05-20 | 2020-11-26 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
CN110442856A (zh) * | 2019-06-14 | 2019-11-12 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
CN111950287A (zh) * | 2020-08-20 | 2020-11-17 | 广东工业大学 | 一种基于文本的实体识别方法及相关装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022142011A1 (zh) * | 2020-12-30 | 2022-07-07 | 平安科技(深圳)有限公司 | 一种地址识别方法、装置、计算机设备及存储介质 |
CN113254639A (zh) * | 2021-05-24 | 2021-08-13 | 珠海大横琴科技发展有限公司 | 一种监控报警定位跟踪方法、装置及电子设备 |
CN113539270A (zh) * | 2021-07-22 | 2021-10-22 | 阳光保险集团股份有限公司 | 一种位置识别方法、装置、电子设备和存储介质 |
CN113539270B (zh) * | 2021-07-22 | 2024-04-02 | 阳光保险集团股份有限公司 | 一种位置识别方法、装置、电子设备和存储介质 |
CN113535880A (zh) * | 2021-09-16 | 2021-10-22 | 阿里巴巴达摩院(杭州)科技有限公司 | 地理信息确定方法、装置、电子设备及计算机存储介质 |
CN113535880B (zh) * | 2021-09-16 | 2022-02-25 | 阿里巴巴达摩院(杭州)科技有限公司 | 地理信息确定方法、装置、电子设备及计算机存储介质 |
CN113836920A (zh) * | 2021-10-19 | 2021-12-24 | 平安普惠企业管理有限公司 | 地址信息的识别方法、装置、计算机设备及存储介质 |
CN116050402A (zh) * | 2022-05-23 | 2023-05-02 | 荣耀终端有限公司 | 文本地址识别方法、电子设备及存储介质 |
CN116050402B (zh) * | 2022-05-23 | 2023-10-20 | 荣耀终端有限公司 | 文本地址识别方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2022142011A1 (zh) | 2022-07-07 |
CN112633003B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112633003B (zh) | 一种地址识别方法、装置、计算机设备及存储介质 | |
CN109299458B (zh) | 实体识别方法、装置、设备及存储介质 | |
CN109271631B (zh) | 分词方法、装置、设备及存储介质 | |
CN113205817B (zh) | 语音语义识别方法、系统、设备及介质 | |
CN111814466A (zh) | 基于机器阅读理解的信息抽取方法、及其相关设备 | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
CN112685565A (zh) | 基于多模态信息融合的文本分类方法、及其相关设备 | |
CN112328761B (zh) | 一种意图标签设置方法、装置、计算机设备及存储介质 | |
WO2021218028A1 (zh) | 基于人工智能的面试内容精炼方法、装置、设备及介质 | |
CN115309877B (zh) | 对话生成方法、对话模型训练方法及装置 | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN112466314A (zh) | 情感语音数据转换方法、装置、计算机设备及存储介质 | |
CN109344242B (zh) | 一种对话问答方法、装置、设备及存储介质 | |
CN112085091B (zh) | 基于人工智能的短文本匹配方法、装置、设备及存储介质 | |
CN112215008A (zh) | 基于语义理解的实体识别方法、装置、计算机设备和介质 | |
CN112836521A (zh) | 问答匹配方法、装置、计算机设备及存储介质 | |
CN112632244A (zh) | 一种人机通话的优化方法、装置、计算机设备及存储介质 | |
CN112287069A (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN110808032A (zh) | 一种语音识别方法、装置、计算机设备及存储介质 | |
CN110633475A (zh) | 基于计算机场景的自然语言理解方法、装置、系统和存储介质 | |
CN115438149A (zh) | 一种端到端模型训练方法、装置、计算机设备及存储介质 | |
CN113342948A (zh) | 一种智能问答方法及装置 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN112084779A (zh) | 用于语义识别的实体获取方法、装置、设备及存储介质 | |
CN115687934A (zh) | 意图识别方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |