CN111445903B - 企业名称识别方法及装置 - Google Patents
企业名称识别方法及装置 Download PDFInfo
- Publication number
- CN111445903B CN111445903B CN202010227831.8A CN202010227831A CN111445903B CN 111445903 B CN111445903 B CN 111445903B CN 202010227831 A CN202010227831 A CN 202010227831A CN 111445903 B CN111445903 B CN 111445903B
- Authority
- CN
- China
- Prior art keywords
- name
- enterprise
- candidate
- business name
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 85
- 238000000605 extraction Methods 0.000 claims abstract description 66
- 241001156380 Chukrasia tabularis Species 0.000 claims abstract description 45
- 239000011159 matrix material Substances 0.000 claims description 160
- 239000013598 vector Substances 0.000 claims description 63
- 238000004364 calculation method Methods 0.000 claims description 48
- 238000007781 pre-processing Methods 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 22
- 238000001914 filtration Methods 0.000 claims description 16
- 238000012163 sequencing technique Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 9
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 238000012954 risk control Methods 0.000 abstract description 14
- 238000013473 artificial intelligence Methods 0.000 abstract description 10
- 230000006870 function Effects 0.000 description 18
- 238000004891 communication Methods 0.000 description 17
- 238000013500 data storage Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 17
- 230000003993 interaction Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000000295 complement effect Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 5
- 239000000872 buffer Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 235000014347 soups Nutrition 0.000 description 3
- 241001528553 Malus asiatica Species 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000001256 tonic effect Effects 0.000 description 2
- 241001481296 Malus spectabilis Species 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种企业名称识别方法及装置,该方法包括:获取目标语音对应的文字信息;将所述目标语音对应的文字信息输入预获取的企业名称实体词汇提取模型,并将该企业名称实体词汇提取模型的输出作为该目标语音对应的企业名称实体词汇;基于对齐音码相似度算法和滑动窗口相似度算法分别得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果,并根据得到的两个相似度结果确定所述目标语音对应的目标企业名称的识别结果。本申请能够通过有效提高企业名称识别的准确性和效率,以提高人工智能客户转接或者企业风险控制的准确性。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种企业名称识别方法及装置。
背景技术
如今,随着互联网技术高速发展,客服从业人员从传统的电话客服扩展到APP和网页等各个渠道,企业可以更加方便地为用户提供服务,但客服也面临着服务渠道更加多样化,服务的客户量急剧增加等问题。随着人工智能的兴起,对话机器人的发展能够极大地节约人力资源,大大提升服务用户的响应速度,尤其是语音交互的使用,能够极大地提升交互的效率和用户的体验效果。
在多轮会话的业务办理的过程中,通常需要获取用户的具体要素信息,语音交互的使用能够解决传统文字交互的步骤繁琐和效率低等问题。但是由于方言的不同、口音差异化和模糊音等多方面的影响,语音信号识别的文字会存在一定差异,加上再加上公司名长短不一,以及口语化地使用公司的别称和简称等问题,加大语音识别的效果,导致对于需要获取精确信息办理业务场景获取关键业务流程信息错误,造成体验不佳甚至业务办理失败。
发明内容
针对现有技术中的问题,本申请提出了一种企业名称识别方法及装置,能够通过有效提高企业名称识别的准确性和效率,以提高人工智能客户转接或者企业风险控制的准确性。
为了解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种企业名称识别方法,包括:
获取目标语音对应的文字信息;
将所述目标语音对应的文字信息输入预获取的企业名称实体词汇提取模型,并将该企业名称实体词汇提取模型的输出作为该目标语音对应的企业名称实体词汇;
基于对齐音码相似度算法和滑动窗口相似度算法分别得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果,并根据得到的两个相似度结果确定所述目标语音对应的目标企业名称的识别结果。
进一步地,所述基于对齐音码相似度算法和滑动窗口相似度算法分别得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果,包括:
从预存储的拼音编码表中获取所述企业名称实体词汇和企业名称候选集中的各个候选企业名称词汇分别对应的拼音编码,并根据该拼音编码分别生成该企业名称实体词汇对应的目标企业名称对齐矩阵和该企业名称候选集对应的候选企业名称矩阵,其中,该目标企业名称对齐矩阵和候选企业名称矩阵各行均首字对齐且末尾空余部分填充空余编码;
基于所述目标企业名称对齐矩阵、候选企业名称矩阵、预设的权重因子和所述企业名称实体词汇的长度,得到所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果;
基于所述滑动窗口相似度算法得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果。
进一步地,所述基于对齐音码相似度算法和滑动窗口相似度算法分别得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果,包括:
从预存储的拼音编码表中获取所述企业名称实体词汇和企业名称候选集中的各个候选企业名称词汇分别对应的拼音编码,并根据该拼音编码生成该企业名称实体词汇对应的目标企业名称拼音编码组和该企业名称候选集对应的候选企业名称矩阵;
若生成多组目标企业名称拼音编码组,则将各组所述目标企业名称拼音编码组分别从第一初始滑动矩阵中各行的首位开始以单字的长度间隔向末位滑动,直至该目标企业名称拼音编码组的末位与该第一初始滑动矩阵的末位对齐,每次滑动后的行空余部分填充空余编码,以生成目标企业名称滑动矩阵,该第一初始滑动矩阵的长度与长度最长的目标企业名称拼音编码组的长度相同;
应用所述目标企业名称滑动矩阵、候选企业名称矩阵、预设的权重因子和最小企业名称长度,得到所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果,其中,该最小企业名称长度为该各个候选企业名称词汇和所述企业名称实体词汇中长度最小的企业名称的长度值;
基于所述对齐音码相似度算法得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果。
进一步地,所述从预存储的拼音编码表中获取所述企业名称实体词汇和企业名称候选集中的各个候选企业名称词汇分别对应的拼音编码,包括:
将所述企业名称实体词汇转化成对应的企业拼音向量组,该企业拼音向量组以所述企业名称实体词汇中各个单字的声母、韵母、补韵母和声调排列;
将所述候选企业名称词汇分别转化成对应的候选企业拼音向量组,该候选企业拼音向量组以所述候选企业名称词汇中各个单字的声母、韵母、补韵母和声调排列;
应用所述预存储的拼音编码表分别对企业拼音向量组和候选企业拼音向量组进行拼音编码。
进一步地,在所述将所述目标语音对应的文字信息输入预获取的企业名称实体词汇提取模型之前,还包括:
采集多条语音对应的文字信息和各个文字信息分别对应的企业名称;
应用所述文字信息及分别对应的企业名称训练所述企业名称实体词汇提取模型,其中,该企业名称实体词汇提取模型为传统要素提取模型、LSTM-CRF模型和BERT-CRF模型中的一种。
进一步地,所述根据得到的两个相似度结果确定所述目标语音对应的目标企业名称的识别结果,包括:
根据应用所述对齐音码相似度算法得到的所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果、应用所述滑动窗口相似度算法得到的所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果以及预设的权重因子,得到所述目标企业名称的识别结果。
进一步地,在所述根据得到的两个相似度结果确定所述目标语音对应的目标企业名称的识别结果之后,还包括:
按照预设的排序规则对所述目标企业名称的识别结果进行排序,并将排序后得到的目标企业名称列表输出显示。
进一步地,在所述将该企业名称实体词汇提取模型的输出作为该目标语音对应的企业名称实体词汇之后,还包括:
对所述企业名称实体词汇进行弱相关词置换和/或删除处理。
进一步地,在所述将所述目标语音对应的文字信息输入预获取的企业名称实体词汇提取模型之前,还包括:
过滤所述目标语音对应的文字信息中的无效字符;
对过滤后的文字信息进行预处理,以对该文字信息分别进行指代关系的替换和/或分词。
进一步地,所述的企业名称识别方法还包括:
根据所述企业名称实体词汇、以及该企业名称实体词汇中的单字和对应的拼音,从预存储的索引库中得到所述企业名称候选集。
第二方面,本申请提供一种企业名称识别装置包括:
获取模块,用于获取目标语音对应的文字信息;
获取企业名称实体词汇模块,用于将所述目标语音对应的文字信息输入预获取的企业名称实体词汇提取模型,并将该企业名称实体词汇提取模型的输出作为该目标语音对应的企业名称实体词汇;
识别模块,用于基于对齐音码相似度算法和滑动窗口相似度算法分别得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果,并根据得到的两个相似度结果确定所述目标语音对应的目标企业名称的识别结果。
进一步地,所述识别模块包括:
获取拼音编码单元,用于从预存储的拼音编码表中获取所述企业名称实体词汇和企业名称候选集中的各个候选企业名称词汇分别对应的拼音编码;
获取对齐矩阵单元,用于根据所述拼音编码分别生成所述企业名称实体词汇对应的目标企业名称对齐矩阵和所述企业名称候选集对应的候选企业名称矩阵,其中,该目标企业名称对齐矩阵和候选企业名称矩阵各行均首字对齐且末尾空余部分填充空余编码;
齐音码相似度计算单元,用于基于所述目标企业名称对齐矩阵、候选企业名称矩阵、预设的权重因子和所述企业名称实体词汇的长度,得到所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果;
第一相似度结果单元,用于基于所述滑动窗口相似度算法得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果。
进一步地,所述识别模块包括:
获取拼音编码单元,用于从预存储的拼音编码表中获取所述企业名称实体词汇和企业名称候选集中的各个候选企业名称词汇分别对应的拼音编码;
生成单元,用于根据所述拼音编码生成所述企业名称实体词汇对应的目标企业名称拼音编码组和所述企业名称候选集对应的候选企业名称矩阵;
生成目标企业名称滑动矩阵单元,用于若生成多组目标企业名称拼音编码组,则将各组所述目标企业名称拼音编码组分别从第一初始滑动矩阵中各行的首位开始以单字的长度间隔向末位滑动,直至该目标企业名称拼音编码组的末位与该第一初始滑动矩阵的末位对齐,每次滑动后的行空余部分填充空余编码,以生成目标企业名称滑动矩阵,该第一初始滑动矩阵的长度与长度最长的目标企业名称拼音编码组的长度相同;
滑动窗口相似度算法单元,用于应用所述目标企业名称滑动矩阵、候选企业名称矩阵、预设的权重因子和最小企业名称长度,得到所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果,其中,该最小企业名称长度为该各个候选企业名称词汇和所述企业名称实体词汇中长度最小的企业名称的长度值;
第二相似度结果单元,用于基于所述对齐音码相似度算法得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果。
进一步地,所述获取拼音编码单元包括:
获取企业拼音向量组子单元,用于将所述企业名称实体词汇转化成对应的企业拼音向量组,该企业拼音向量组以所述企业名称实体词汇中各个单字的声母、韵母、补韵母和声调排列;
获取候选企业拼音向量组子单元,用于将所述候选企业名称词汇分别转化成对应的候选企业拼音向量组,该候选企业拼音向量组以所述候选企业名称词汇中各个单字的声母、韵母、补韵母和声调排列;
拼音编码子单元,用于应用所述预存储的拼音编码表分别对企业拼音向量组和候选企业拼音向量组进行拼音编码。
进一步地,所述的企业名称识别装置还包括:
采集历史数据模块,用于采集多条语音对应的文字信息和各个文字信息分别对应的企业名称;
训练模块,用于应用所述文字信息及分别对应的企业名称训练所述企业名称实体词汇提取模型,其中,该企业名称实体词汇提取模型为传统要素提取模型、LSTM-CRF模型和BERT-CRF模型中的一种。
进一步地,所述识别模块包括:
识别单元,用于根据应用所述对齐音码相似度算法得到的所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果、应用所述滑动窗口相似度算法得到的所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果以及预设的权重因子,得到所述目标企业名称的识别结果。
进一步地,所述的企业名称识别装置还包括:
排序并显示模块,用于按照预设的排序规则对所述目标企业名称的识别结果进行排序,并将排序后得到的目标企业名称列表输出显示。
进一步地,所述的企业名称识别装置还包括:
弱相关词处理模块,用于对所述企业名称实体词汇进行弱相关词置换和/或删除处理。
进一步地,所述的企业名称识别装置还包括:
过滤模块,用于过滤所述目标语音对应的文字信息中的无效字符;
预处理模块,用于对过滤后的文字信息进行预处理,以对该文字信息分别进行指代关系的替换和/或分词。
进一步地,所述的企业名称识别装置还包括:
获取企业名称候选集模块,用于根据所述企业名称实体词汇、以及该企业名称实体词汇中的单字和对应的拼音,从预存储的索引库中得到所述企业名称候选集。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的企业名称识别方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现所述的企业名称识别方法。
由上述技术方案可知,本申请提供一种企业名称识别方法及装置,其中,该方法包括:获取目标语音对应的文字信息;将所述目标语音对应的文字信息输入预获取的企业名称实体词汇提取模型,并将该企业名称实体词汇提取模型的输出作为该目标语音对应的企业名称实体词汇;基于对齐音码相似度算法和滑动窗口相似度算法分别得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果,并根据得到的两个相似度结果确定所述目标语音对应的目标企业名称的识别结果。本申请能够通过有效提高企业名称识别的准确性和效率,以提高人工智能客户转接或者企业风险控制的准确性。本申请能够企业名称识别的准确性和效率;具体地,能够实现用户语音交互过程中的企业名称的同音不同字的识别,能够实现易混发音的识别,能够实现对长短不齐的企业名称、简称和别称的识别,同时降低识别过程的难度,进而能够提高识别结果的准确性和可靠性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中企业名称识别方法的流程示意图;
图2是本申请实施例中企业名称识别方法步骤S311至S313的流程示意图;
图3是本申请实施例中企业名称识别方法步骤S321至S324的流程示意图;
图4是本申请实施例中企业名称识别方法步骤S331至S333的流程示意图;
图5是本申请实施例中企业名称识别方法步骤S021至S022的流程示意图;
图6是本申请实施例中企业名称识别装置的结构示意图;
图7是本申请实施例中识别模块的结构示意图;
图8是本申请另一实施例中识别模块的结构示意图;
图9是本申请具体应用实例中企业名称识别系统的结构示意图;
图10是本申请具体应用实例中信息预处理装置的结构示意图;
图11是本申请具体应用实例中实体提取装置的结构示意图;
图12是本申请具体应用实例中匹配计算装置的结构示意图;
图13是本申请具体应用实例中搜索召唤装置的结构示意图;
图14是本申请具体应用实例中数据存储装置的结构示意图;
图15是本申请具体应用实例中企业名称识别方法的流程示意图;
图16为本申请实施例的电子设备9600的系统构成示意框图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
基于此,为了通过有效提高企业名称识别的准确性和效率,以提高人工智能客户转接或者企业风险控制的准确性,本申请实施例提供一种企业名称识别装置,该装置可以是一服务器或客户端设备,所述客户端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备和智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表和智能手环等。
在实际应用中,进行企业名称识别的部分可以在如上述内容所述的服务器侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
所述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信,包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然,所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol,远程过程调用协议)、REST协议(Representational State Transfer,表述性状态转移协议)等。
具体通过下述各个实施例进行说明。
如图1所示,为了通过有效提高企业名称识别的准确性和效率,以提高人工智能客户转接或者企业风险控制的准确性,本实施例提供一种执行主体是企业名称识别装置的企业名称识别方法,具体包含有如下内容:
S100:获取目标语音对应的文字信息。
具体地,所述目标语音可以是客户端实时采集的用户语音信息。
S200:将所述目标语音对应的文字信息输入预获取的企业名称实体词汇提取模型,并将该企业名称实体词汇提取模型的输出作为该目标语音对应的企业名称实体词汇。
具体地,所述企业名称实体词汇提取模型可以是传统要素提取模型、LSTM-CRF模型和BERT-CRF模型中的一种。
S300:基于对齐音码相似度算法和滑动窗口相似度算法分别得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果,并根据得到的两个相似度结果确定所述目标语音对应的目标企业名称的识别结果。
可以理解的是,基于对齐音码相似度算法获取所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果;基于滑动窗口相似度算法得到所述企业名称实体词汇与预设的企业名称候选集之间的另一相似度结果。本申请对于应用对齐音码相似度算法和滑动窗口相似度算法获得相似度结果的顺序不作限制。
具体地,所述企业名称候选集包含有简称候选集、相近音候选集和单字候选集;可以根据所述企业名称实体词汇从预存储的简称索引库获取简称候选集,从预存储的拼音索引库获取相近音候选集,从预存储的单字索引库获取单字候选集;所述预存储的简称索引库、拼音索引库和单字索引库可根据实际需要进行设置,本申请对此不作限制。
进一步地,应用本申请实施例提供的企业名称识别方法,能够通过有效提高企业名称识别的准确性和效率,以提高人工智能客户转接准确性及效率,为此,本申请提供一种人工智能客户转接方法的举例,在该举例中执行主体为人工智能客户服务器,举例具体为:
接收目标用户发出的语音信息。
根据该语音信息和本申请实施例提供的企业名称识别方法得到对应的企业名称。
根据所述企业名称调度该企业名称对应的人工智能问答模块向所述目标用户服务。
进一步地,应用本申请实施例提供的企业名称识别方法,能够通过有效提高企业名称识别的准确性和效率,以提高企业风险控制的准确性及效率,为此,本申请提供一种企业风险控制方法的举例,在该举例中执行主体为企业风险控制服务器,举例具体为:
接收目标用户发出的语音信息。
根据该语音信息和本申请实施例提供的企业名称识别方法获取对应的企业名称。
将该企业名称与预设的存在财务或运营风险的企业黑名单进行比对,若比对后确定该企业名称存在风险,则应用预设的风险控制方式对其进行控制。
具体地,所述存在财务或运营风险的企业黑名单以及风险控制方式可根据实际需要进行设置,本申请对此不作限制。
参见图2,为了在有效提高企业名称识别的准确性和效率的基础上,进一步提高易混发音识别准确性,在本申请一个实施例中,步骤S300中所述基于对齐音码相似度算法和滑动窗口相似度算法分别得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果,包含有:
S311:从预存储的拼音编码表中获取所述企业名称实体词汇和企业名称候选集中的各个候选企业名称词汇分别对应的拼音编码,并根据该拼音编码分别生成该企业名称实体词汇对应的目标企业名称对齐矩阵和该企业名称候选集对应的候选企业名称矩阵,其中,该目标企业名称对齐矩阵和候选企业名称矩阵各行均首字对齐且末尾空余部分填充空余编码。
具体地,所述拼音编码表可以存储在目标数据库中,该拼音编码表包含有拼音字母和编码之间的对应关系。根据该企业名称实体词汇对应的拼音编码生成对应的目标企业名称对齐矩阵,该目标企业名称对齐矩阵包含有该企业名称实体词汇对应的各个企业拼音向量组;根据所述企业名称候选集中的各个候选企业名称词汇生成对应的候选企业名称矩阵。所述空余编码可以是0。所述目标企业名称对齐矩阵中包含有各个目标企业名称拼音编码组,所述候选企业名称矩阵包含有企业名称候选集对应的各个候选企业名称拼音编码组。
S312:基于所述目标企业名称对齐矩阵、候选企业名称矩阵、预设的权重因子和所述企业名称实体词汇的长度,得到所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果。
S313:基于所述滑动窗口相似度算法得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果。
具体地,所述企业名称实体词汇和预设的企业名称候选集之间齐音码相似度计算的公式如下所示:
其中,公式中simA表示表示企业名称实体词汇与候选企业名称之间的齐音码相似度结果组成的向量,B表示所述候选企业名称矩阵,M表示所述目标企业名称对齐矩阵,W表示音编码权重向量,即权重因子,dis(B)表示企业名称实体词汇的长度,举例来说,若企业名称实体词汇为“股份有限公司”,则dis(B)=6。diff(B,M)是一个程序编码函数,表示所述候选企业名称对齐矩B阵与所述目标企业名称对齐矩阵M之间的差异,对B矩阵和M矩阵中相同位置的值进行比较,相同位置若值相同则为1,若值不同则为0,若值相似则为ys,以得到一个新的矩阵,用于表示所述候选企业名称矩阵与所述目标企业名称对齐矩阵之间的差异;若每一数字位用伪代码表示:对于c=diff(a,b),if|a-b|=0:c=1;elif|a-b|>1:c=0;else:c=|a-b|;举例来说,diff([5,8,3,9],[5,8,3.6,7])=[1,2,0.6,0]。
进一步地,所述预设的权重因子是根据声母、韵母、补韵母和声调在音码相似度中所起的作用而设置的权重,根据实际应用效果,会对声母和韵母的权重设置的较高,而补韵母设置的权重较低,如设声母、韵母、补韵母和声调的权重分别为0.4、0.4、0.1和0.1,则字音码的权重因子矩阵W如表1所示。
表1
0.4 | 0.4 | 0.1 | 0.1 | 0.4 | 0.4 | 0.1 | 0.1 | ... |
参见图3,为了在提高企业名称识别的准确性和可靠性的基础上,实现对长度不一的企业名称、简称和别称的识别,在本申请一个实施例中,步骤S300中所述基于对齐音码相似度算法和滑动窗口相似度算法分别得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果,包含有:
S321:从预存储的拼音编码表中获取所述企业名称实体词汇和企业名称候选集中的各个候选企业名称词汇分别对应的拼音编码,并根据该拼音编码生成该企业名称实体词汇对应的目标企业名称拼音编码组和该企业名称候选集对应的候选企业名称矩阵。
具体地,所述候选企业名称矩阵包含有企业名称候选集对应的各个候选企业名称拼音编码组。
S322:若生成多组目标企业名称拼音编码组,则将各组所述目标企业名称拼音编码组分别从第一初始滑动矩阵中各行的首位开始以单字的长度间隔向末位滑动,直至该目标企业名称拼音编码组的末位与该第一初始滑动矩阵的末位对齐,每次滑动后的行空余部分填充空余编码,以生成目标企业名称滑动矩阵,该第一初始滑动矩阵的长度与长度最长的目标企业名称拼音编码组的长度相同。
具体地,所述第一初始滑动矩阵可以为零矩阵,长度与长度最长的目标企业名称拼音编码组的长度相同。
S323:应用所述目标企业名称滑动矩阵、候选企业名称矩阵、预设的权重因子和最小企业名称长度,得到所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果,其中,该最小企业名称长度为该各个候选企业名称词汇和所述企业名称实体词汇中长度最小的企业名称的长度值。
S324:基于所述对齐音码相似度算法得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果。
具体地,所述企业名称实体词汇和预设的企业名称候选集之间滑动窗口相似度计算的公式如下所示:
其中,公式中simB表示表示企业名称实体词汇与候选企业名称之间的滑动窗口相似度结果组成的向量,B表示所述候选企业名称矩阵、P表示所述目标企业名称滑动矩阵、W表示音编码权重向量,即权重因子,diff(B,P)表示计算公司名矩阵和匹配公司名矩阵之间的差异,即编码相同值为1、不相同值为0、相似的值为相似值ys;max(diff(B,P)·W)表示取不同滑动窗口长度的最大计算结果,min(dis(B,P))表示各个候选企业名称词汇和企业名称实体词汇长度中的最小长度。
可以理解的是,若仅生成一组目标企业名称拼音编码组,则在相似度计算时,将目标企业名称滑动矩阵替换为该目标企业名称拼音编码组。
参见图4,在本申请一个实施例中,步骤S311或S321中的所述从预存储的拼音编码表中获取所述企业名称实体词汇和企业名称候选集中的各个候选企业名称词汇分别对应的拼音编码,包含有:
S331:将所述企业名称实体词汇转化成对应的企业拼音向量组,该企业拼音向量组以所述企业名称实体词汇中各个单字的声母、韵母、补韵母和声调排列。
S332:将所述候选企业名称词汇分别转化成对应的候选企业拼音向量组,该候选企业拼音向量组以所述候选企业名称词汇中各个单字的声母、韵母、补韵母和声调排列。
S333:应用所述预存储的拼音编码表分别对企业拼音向量组和候选企业拼音向量组进行拼音编码。
具体地,所述拼音编码表可以包含有声母编码表、韵母编码表和声调编码表三个子表,也可以是一个完整的拼音编码表,该完整的拼音编码表中包含有声母、韵母和声调分别对应的编码。为了解决易混发音识别的问题,特别是不同方言导致的发音差异的问题,可以在该拼音编码表中对易混拼音的编码中添加音相似差异值,该音相似差异值可根据实际需要进行设定本申请对此不作限制。
举例来说,所述声母编码表、韵母编码表和声调编码表分别如表2至表4所示,表中ys表示音相似差异值,可根据实际需要进行设置,如设为0.6。
表2
声母 | b | p | m | f | d | t | n | l |
编码 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 7+ys |
声母 | j | k | h | g | q | x | zh | z |
编码 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
声母 | ch | c | sh | s | r | y | w | 0 |
编码 | 17 | 17+ys | 19 | 19+ys | 21 | 22 | 23 | 0 |
表3
韵母 | a | o | e | i | u | v | ai | ei | ui |
编码 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 7+ys | 9 |
韵母 | ao | ou | iu | ie | ve | er | an | ang | en |
编码 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 16+ys | 18 |
韵母 | eng | in | ing | un | ven | ong | 0 | ||
编码 | 18+ys | 20 | 20+ys | 22 | 23 | 24 | 0 |
表4
声调 | 1 | 2 | 3 | 4 | 0 |
编码 | 1 | 2 | 3 | 4 | 0 |
参见图5,为了进一步提高企业名称识别的效率和自动化程度,在本申请一个实施例中,在步骤S200之前还包含有:
S021:采集多条语音对应的文字信息和各个文字信息分别对应的企业名称。
S022:应用所述文字信息及分别对应的企业名称训练所述企业名称实体词汇提取模型,其中,该企业名称实体词汇提取模型为传统要素提取模型、LSTM-CRF模型和BERT-CRF模型中的一种。
在本申请一个实施例中,步骤S300中所述根据得到的两个相似度结果确定所述目标语音对应的目标企业名称的识别结果,包含有:
S341:根据应用所述对齐音码相似度算法得到的所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果、应用所述滑动窗口相似度算法得到的所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果以及预设的权重因子,得到所述目标企业名称的识别结果。
具体地,通过下述公式获得所述目标企业名称的识别结果:
sim=w×simA+(1-w)×simB
其中,sim表示各个企业名称实体词汇、各个候选企业名称词汇和所述各个企业名称实体词汇与各个候选企业名称词汇之间相似度值的列表;w表示预设的相似度计算权重系数,可根据实际需要进行设置,如0.4。
为了进一步提高企业名称识别的准确性和可视化程度,在本申请一个实施例中,步骤S300之后还包含有:
S400:按照预设的排序规则对所述目标企业名称的识别结果进行排序,并将排序后得到的目标企业名称列表输出显示。
具体地,所述预设的排序规则可根据实际需要进行设置,例如,根据不同索引库设置的优先级和相似度值大小进行排序。
为了进一步提高企业名称识别的效率,在本申请一个实施例中,在步骤S200之后还包含有:
对所述企业名称实体词汇进行弱相关词置换和/或删除处理。
举例来说,将企业名称实体词汇中的弱相关词进行置换或去除,如将“XX银行股份有限公司”预处理为“XX银行”,既减少计算的消耗,还能够降低弱相关词对相似度计算结果的影响。所述弱相关词可根据实际情况进行设置,例如,在对去企业名称进行识别时,“有限”、“股份”和“公司”可以作为弱相关词进行去除。
为了进一步提高企业名称识别的效率和可靠性,在本申请一个实施例中,在骤S200之前还包含有:
S021:过滤所述目标语音对应的文字信息中的无效字符。
S022:对过滤后的文字信息进行预处理,以对该文字信息分别进行指代关系的替换和/或分词。
具体地,所述无效字符为对应业务场景下的无效字符,可根据实际需要进行设置,如:语气词;分词是指将所述文字信息分成多个单词;指代关系的替换是指代消解是指将所述文字信息中的代词替换为表示的实际意义的词。
为了进一步说明本方案,在本申请一个实施例中,所述的企业名称识别方法还包含有:
根据所述企业名称实体词汇、以及该企业名称实体词汇中的单字和对应的拼音,从预存储的索引库中得到所述企业名称候选集。
具体地,所述预存储的索引库包含有简称索引库、拼音索引库和单字索引库。
从软件层面来说,为了通过有效提高企业名称识别的准确性和效率,以提高人工智能客户转接或者企业风险控制的准确性,本申请提供一种企业名称识别方法中全部或部分内容的企业名称识别装置的实施例,参见图6,所述企业名称识别装置具体包含有如下内容:
获取模块10,用于获取目标语音对应的文字信息。
获取企业名称实体词汇模块20,用于将所述目标语音对应的文字信息输入预获取的企业名称实体词汇提取模型,并将该企业名称实体词汇提取模型的输出作为该目标语音对应的企业名称实体词汇。
识别模块30,用于基于对齐音码相似度算法和滑动窗口相似度算法分别得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果,并根据得到的两个相似度结果确定所述目标语音对应的目标企业名称的识别结果。
参见图7,在本申请一个实施例中,所述识别模块30包含有:
获取拼音编码单元31,用于从预存储的拼音编码表中获取所述企业名称实体词汇和企业名称候选集中的各个候选企业名称词汇分别对应的拼音编码。
获取对齐矩阵单元32,用于根据所述拼音编码分别生成所述企业名称实体词汇对应的目标企业名称对齐矩阵和所述企业名称候选集对应的候选企业名称矩阵,其中,该目标企业名称对齐矩阵和候选企业名称矩阵各行均首字对齐且末尾空余部分填充空余编码。
齐音码相似度计算单元33,用于基于所述目标企业名称对齐矩阵、候选企业名称矩阵、预设的权重因子和所述企业名称实体词汇的长度,得到所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果。
第一相似度结果单元34,用于基于所述滑动窗口相似度算法得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果。
参见图8,在本申请一个实施例中,所述识别模块30包含有:
获取拼音编码单元31,用于从预存储的拼音编码表中获取所述企业名称实体词汇和企业名称候选集中的各个候选企业名称词汇分别对应的拼音编码。
生成单元35,用于根据所述拼音编码生成所述企业名称实体词汇对应的目标企业名称拼音编码组和所述企业名称候选集对应的候选企业名称矩阵。
生成目标企业名称滑动矩阵单元36,用于若生成多组目标企业名称拼音编码组,则将各组所述目标企业名称拼音编码组分别从第一初始滑动矩阵中各行的首位开始以单字的长度间隔向末位滑动,直至该目标企业名称拼音编码组的末位与该第一初始滑动矩阵的末位对齐,每次滑动后的行空余部分填充空余编码,以生成目标企业名称滑动矩阵,该第一初始滑动矩阵的长度与长度最长的目标企业名称拼音编码组的长度相同。
滑动窗口相似度算法单元37,用于应用所述目标企业名称滑动矩阵、候选企业名称矩阵、预设的权重因子和最小企业名称长度,得到所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果,其中,该最小企业名称长度为该各个候选企业名称词汇和所述企业名称实体词汇中长度最小的企业名称的长度值。
第二相似度结果单元38,用于基于所述对齐音码相似度算法得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果。
在本申请一个实施例中,所述获取拼音编码单元31包含有:
获取企业拼音向量组子单元,用于将所述企业名称实体词汇转化成对应的企业拼音向量组,该企业拼音向量组以所述企业名称实体词汇中各个单字的声母、韵母、补韵母和声调排列。
获取候选企业拼音向量组子单元,用于将所述候选企业名称词汇分别转化成对应的候选企业拼音向量组,该候选企业拼音向量组以所述候选企业名称词汇中各个单字的声母、韵母、补韵母和声调排列。
拼音编码子单元,用于应用所述预存储的拼音编码表分别对企业拼音向量组和候选企业拼音向量组进行拼音编码。
在本申请一个实施例中,所述的企业名称识别装置还包含有:
采集历史数据模块,用于采集多条语音对应的文字信息和各个文字信息分别对应的企业名称。
训练模块,用于应用所述文字信息及分别对应的企业名称训练所述企业名称实体词汇提取模型,其中,该企业名称实体词汇提取模型为传统要素提取模型、LSTM-CRF模型和BERT-CRF模型中的一种。
在本申请一个实施例中,所述识别模块30包含有:
识别单元,用于根据应用所述对齐音码相似度算法得到的所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果、应用所述滑动窗口相似度算法得到的所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果以及预设的权重因子,得到所述目标企业名称的识别结果。
在本申请一个实施例中,所述的企业名称识别装置还包含有:
排序并显示模块,用于按照预设的排序规则对所述目标企业名称的识别结果进行排序,并将排序后得到的目标企业名称列表输出显示。
在本申请一个实施例中,所述的企业名称识别装置还包含有:
弱相关词处理模块,用于对所述企业名称实体词汇进行弱相关词置换和/或删除处理。
在本申请一个实施例中,所述的企业名称识别装置还包含有:
过滤模块,用于过滤所述目标语音对应的文字信息中的无效字符。
预处理模块,用于对过滤后的文字信息进行预处理,以对该文字信息分别进行指代关系的替换和/或分词。
在本申请一个实施例中,所述的企业名称识别装置还包含有:
获取企业名称候选集模块,用于根据所述企业名称实体词汇、以及该企业名称实体词汇中的单字和对应的拼音,从预存储的索引库中得到所述企业名称候选集。
本说明书提供的企业名称识别装置的实施例具体可以用于执行上述企业名称识别方法的实施例的处理流程,其功能在此不再赘述,可以参照上述企业名称识别方法实施例的详细描述。
为了进一步说明本方案,本申请还提供一种大规模企业名称识别系统的具体应用实例,在本具体应用实例中,参见图9,在本具体应用实例中,该企业名称识别系统包含有:信息预处理装置1、实体提取装置2、匹配计算装置3、搜索召唤装置4、数据存储装置5和结果处理装置6。其中,信息预处理装置1、实体提取装置2、匹配计算装置3与数据存储装置5连接。实体提取装置2还分别与信息预处理装置1和匹配计算装置3连接,匹配计算装置3还连接于搜索召唤装置4和结果处理装置6。具体内容如下:
(一)信息预处理装置1
信息预处理装置1用于接收业务服务相关信息并从数据存储装置5获取预处理配置信息,如过滤词等;应用预处理配置信息对接收的业务服务相关信息进行预处理,如分词和指代消解等;将预处理的结果发送至实体提取装置2,并应用实体提取装置2提取出公司名实体。
如图10所示,信息预处理装置1包含有信息过滤单元101和信息预处理单元102。
信息过滤单元101,用于对业务服务端发送的业务服务相关信息中在对应业务场景下的无效字符和无意义字符进行过滤,如语气词和无效字符等。
信息预处理单元102,用于对信息过滤单元101处理后的数据进行预处理,如指代消解和分词等,即对信息过滤单元101处理后的数据进行分词预处理,并将对应的指代关系进行处理。
(二)实体提取装置2
实体提取装置2用于从信息预处理装置1获取预处理后的信息,并从数据存储装置5获取配置的实体提取模型;将用户输入的业务服务相关信息对应的公司名实体提取出来,发送至匹配计算装置3进行相似度计算。
如图11所示,实体提取装置2包含有模型获取单元201、模型调用单元202和实体生成单元203。
模型获取单元201,用于获取该类型的实体配置的模型信息,从而获取处理用户输入所需要调用的模型(如规则、要素提取模型和深度学习模型等)。
模型调用单元202,模型调用单元202是通用的模型调用模块,根据不同的模型类型去选择不同的调用方式和返回结果的处理方式。
实体生成单元203,用于将模型调用单元202的模型返回结果,根据不同字和词的模型生成的标记,组合成所标记出的公司名实体,如用户如输入的是“帮我查一下工商银行股份有限公司”,实体生成单元203通过对模型调用结果处理生成公司名实体“工商银行股份有限公司”。
(三)匹配计算装置3
匹配计算装置3,用于将从实体提取装置2获取提取出的公司名实体和从搜索召唤装置4召回的一定数量相似公司名作为候选集;从数据存储装置5中获取公司名匹配算法的配置参数,并计算与候选集中的候选公司名的相似度,找出最相近的公司名。
如图12所示,匹配计算装置3包含有实体预处理单元301、拼音生成单元302、音码编码单元303、匹配库召回单元304、匹配库编码单元305、匹配计算单元306和名称排序单元307。
实体预处理单元301,用于将实体提取出装置2提取出的公司名实体进行处理,将公司名实体中的弱相关词进行置换或去除,如将“XX银行股份有限公司”预处理为“XX银行”,既能够减少计算的消耗,还能够降低弱相关词对匹配计算的影响。
拼音生成单元302,用于调用拼音生成插件,将实体预处理单元301预处理后的公司名实体生成对应的拼音,如将“银行”生成为[['y','in','0','2'],['h','ang','0','2']],为了解决方言等问题,会最终生成多音字拼音的方式进行使用。
音码编码单元303,该模块是拼音生成单元302生成的拼音使用编码表进行编码,编码表分声母编码表、韵母编码表和字典编码表。在中国的不同地区中,各自有着不同的方言;比如很多地区很难区分“n”和“l”、“in”和“ying”。这些发音之间存在一定的相似性,为了解决发音带来的差异问题,在编码时加入音相似差异值ys。具体的编码表可以如表2至表4所示,拼音编码方式可以如表5所示,每个字的拼音拆分成四个部分,包含有声母、韵母、补韵母和声调。
表5
声母 | 韵母 | 补韵母 | 声调 | 声母 | 韵母 | 补韵母 | 声调 | ... |
举例来说,如果音相似差异值ys为0.6,则“银行”的编码音码编码向量如表6所示。
表6
22 | 20 | 0 | 2 | 11 | 16.6 | 0 | 2 |
匹配库召回单元304,用于根据提取出的公司名实体从建立的企业库中搜索召回出一定数量相近的企业名信息以生成候选企业集,其中,该企业库包含有按字索引库、按音索引库和简称索引库。
匹配库编码单元305,搜索召唤装置4在建立索引库时会生成拼音,匹配库编码单元305用于将匹配库召回单元304召回出的企业拼音信息按音码编码单元303的编码方式生成候选企业编码矩阵。
匹配计算单元306,用于精确计算提取出的公司名实体与候选企业集的相似度,以找到最佳匹配公司名称,针对公司名长度不一,存在简称和别称等问题。
具体地,在本具体应用实例中,采用对齐音码相似度算法和滑动窗口音码相似度算法综合计算企业名的相似度。
权重因子:权重因子是根据声母、韵母、补韵母和声调在音码相似度中所起的作用而设置的权重,根据实际应用效果,会对声母和韵母的权重设置的较高,而补韵母设置的权重较低。
(1)对齐音码相似度算法
该算法是首字对齐的方式进行音码相似度计算,首先按最长公司名的长度拓展编码矩阵,然后从首字从前往后进行编码填充,空余的部分填充空余编码,相似度计算长度因子按候选公司名长度进行计算。相似度计算过程描述如下:
S11:生成对齐计算矩阵。
首先计算出匹配公司名称和候选匹配集公司名的最长公司名编码,然后根据最长公司名编码生成多音字匹配公司名矩阵M和多音字候选匹配集公司名矩阵B,小于最长编码长度的部分补特定字符0。
S12:建立公司索引。
根据生成的候选匹配集公司名矩阵B建立公司索引,即每个公司在候选匹配集公司名矩阵B的位置和公司名的长度,用于后续计算使用。
S13:相似度计算。
相似度计算的具体公式如下,其中B表示候选匹配集公司名矩阵、M表示多音字匹配公司名矩阵、W表示权重因子向量。diff(B,M)表示计算公司名矩阵和匹配公司名矩阵之间的差异,即编码相同值为1、不相同值为0、相似的为相似值ys。dis(B)表示用于计算的公司名的实际长度。
S14:排序输出。
根据相似度的计算结果进行排序。
(2)滑动窗口音码相似度算法
该算法是使用位移的方式生成编码矩阵,即最长公司名的长度确定拓展编码矩阵的长度,然后每次向后滑动一个字的编码长度的方式填充拓展矩阵,直至末位对齐,如最大字长为。相似度计算描述如下:
S21:生成滑动窗口计算矩阵。
首先计算出匹配公司名称和候选匹配集公司名的最长公司名编码,然后根据最长公司名编码生成多音字匹配公司名滑动窗口矩阵P和候选匹配集公司名矩阵B,小于最长编码长度的部分补特定字符0。
S22:建立公司索引。
根据生成的候选匹配集公司名矩阵B建立公司索引,即每个公司在候选匹配集公司名矩阵B的位置和公司名的长度,用于后续计算使用。
S23:相似度计算。
相似度计算的具体公式如下,其中B表示候选匹配集公司名矩阵,P表示多音字匹配公司名滑动窗口矩阵,W表示权重因子向量。diff(B,P)表示计算公司名矩阵和匹配公司名矩阵之间的差异,即编码相同值为1、不相同值为0、相似的为相似值ys。max(diff(B,P)·W)表示取不同滑动窗口长度的最大计算结果。min(dis(B,P))表示公司名称和实际匹配公司名的最小长度。
S24:排序输出。
根据相似度的计算结果进行排序。
(3)获取综合相似度。
综合相似度为对齐音码相似度算法和滑动窗口音码相似度算法的综合评分,可根据实际情况设置不同算法的权重,计算如下:
sim=w×simA+(1-w)×simB
名称排序单元307,用于将匹配计算单元306计算好的结果进行排序,排序的规则是根据不同索引库设置的优先级和相似度值进行,最终给出一个相似企业名的排序列表。
(四)搜索召唤装置4
搜索召唤装置4:用于根据字、词和拼音等构件的搜索库,分别从字、词和拼音等维度搜索出相似公司名候选集。
如图13所示,搜索召唤装置4包含有企业拼音索引库单元401、企业单字索引库单元402和企业简称索引库单元403。
企业拼音索引库单元401,用于根据拼音建立企业库索引,使用拼音进行检索,解决同音问题。
企业单字索引库单元402,用于根据单字建立企业库索引,使用单字进行检索,用于辅助企业名完全匹配。
企业简称索引库单元403,用于根据企业简称建立简称库,解决简称和别称问题。
(五)数据存储装置5
数据存储装置5:用于各类数据的存储,为信息预处理装置1提供预处理配置信息,为实体提取装置2提供配置的实体提取模型信息,以及为匹配计算装置3提供匹配算法的配置参数等信息。
如图14所示,数据存储装置5包含有基础数据存储单元501、模型数据存储单元502、系统数据存储单元503和日志数据存储单元504。
基础数据存储单元501,用于存储交互系统的基础数据,过滤词信息、过滤规则信息和其他基础配置信息等。
模型数据存储单元502,用于存储交互系统中使用到的模型信息,如规则模型和要素提取模型等的调用信息,根据这些配置信息去选择使用的模型和模型输出结果的处理方法。
系统数据存储单元503,用于存储交互系统的交互配置信息,如配置的会话任务流程信息等。
日志数据存储单元504,用于存储交互系统中收集到的日志数据,包含有信息处理的数据,业务服务的请求和交互中的信息等。
为了进一步说明本方案,结合上述大规模企业名称识别系统,本申请还提供一种企业名称识别方法的具体应用实例,如图15所示,在本具体应用实例中该方法具体包含有如下内容:
步骤701:用户发起输入请求给业务服务端后,业务服务端将用户输入信息发送给交互系统,信息预处理装置1对用户输入信息进行预处理,将无效字符和无意义字符进行过滤,将用户的输入进行分词预处理,并将对应的指代关系进行处理等。
步骤702:实体提取装置2获取配置的模型调用信息,然后调用模型获取要素提取结果。
步骤703:实体提取装置2获取模型返回结果,根据不同字、词的模型生成的标记,解析所标记出公司名称要素。
步骤704:匹配计算装置3调用搜索召唤装置4,根据不同的索引库获取召回的相似公司名,如根据拼音索引库获取相近音候选集,根据单字索引库获取相近名候选集,根据简称索引库获取相近简称候选集。
步骤705:匹配计算装置3将用户输入转换成拼音,并将拼音生成音码编码矩阵,将搜索库中获取的候选集拼音生成候选集音码编码矩阵。
步骤706:匹配计算装置3根据生成的音码编码矩阵,采用对齐音码相似度算法和滑动窗口音码相似度算法综合计算公司名称的相似度。
步骤707:匹配计算装置3根据不同索引库设置的优先级和相似度值进行排序,最终给出一个相似企业名的排序列表。
步骤708,结果处理装置6根据计算出的排序列表进行封装,返回给用户进行展示。
为了进一步说明本方案,本申请还提供一种企业名称识别方法的具体应用实例,具体内容如下:
获取目标语音对应的文字信息。设定ys值为0.6,将所述目标语音对应的文字信息输入预获取的企业名称实体词汇提取模型,并将该企业名称实体词汇提取模型的输出作为该目标语音对应的企业名称实体词汇,其中,所述企业名称实体词汇为“大汤集团”,其对应的企业拼音向量组为[['d','a','0','4'],['t','ang','0','1'],['j','i','0','2'],['t','an','u','2']];企业拼音向量组对应的目标企业名称拼音编码组分别为[[5,1,0,4],[6,16.6,0,1],[9,4,0,2],[6,16,5,2]]。
根据所述企业名称实体词汇、以及该企业名称实体词汇中的单字和对应的拼音,分别从预存储的简称索引库、拼音索引库和单字索引库中得到该企业名称实体词汇对应的企业名称候选集为“大棠科技”、“大棠集运”和“中国大棠集团”,其对应的候选企业拼音向量组有3个,分别为[['d','a','0','4'],['t','ang','0','2'],['k','e','0','1'],['j','i','0','4']]、[['d','a','0','4'],['t','ang','0','2'],['j','i','0','2'],['y','un','0','4']]和[['zh','ong','0','1'],['g','o','u','2'],['d','a','0','4'],['t','ang','0','2'],['j','i','0','2'],['t','an','u','2']];各个候选企业拼音向量组[[5,1,0,4],[6,16.6,0,2],[10,3,0,1],[9,4,0,4]]、[[5,1,0,4],[6,16.6,0,2],[9,4,0,2],[22,22,0,4]]和[[24,24,0,1],[12,2,5,2],[5,1,0,4],[6,16.6,0,2],[9,4,0,2],[6,16,5,2]]。
1、对齐音码相似度算法
根据企业名称实体词汇为“大汤集团”生成多音字匹配公司名矩阵M:
[5,1,0,4,6,16.6,0,1,9,4,0,2,6,16,5,2,0,0,0,0,0,0,0,0]
根据企业名称候选集“大棠科技”、“大棠集运”和“中国大棠集团”生成多音字候选匹配集公司名矩阵B:
权重因子向量w为:
[0.4,0.4,0.1,0.1,0.4,0.4,0.1,0.1,0.4,0.4,0.1,0.1,0.4,0.4,0.1,0.1,0.4,0.4,0.1,0.1,0.4,0.4,0.1,0.1]T
则对齐音码相似度算法的相似度计算结果为:
2、滑动窗口音码相似度算法
根据企业名称实体词汇为“大汤集团”生成多音字匹配公司名滑动窗口矩阵P:
根据企业名称候选集“大棠科技”、“大棠集运”和“中国大棠集团”生成多音字候选匹配集公司名矩阵B:
根据生成多音字匹配公司名滑动窗口矩阵P时滑动的距离,将补全位置的权重设置为0,对应生成权重因子计算矩阵W为:
则滑动窗口音码相似度算法的相似度计算结果为:
设定两种不同计算方式的权重因子为w,则最终的相似度计算结果为:
sim=0.2×simA+0.8×simB=[0.536,0.748,0.816]T
3、根据生成的结果sim排序如表7所示:
表7
公司名 | 相似度 |
中国大棠集团 | 0.816 |
大棠集运 | 0.748 |
大棠科技 | 0.536 |
由上述描述可知,本申请提供的企业名称识别方法及装置,基于音检索的方法从大规模的知识库中召回部分企业名称,通过基于音码的相似度算法对召回的名称进行相似度计算和排序,从而找出最相似的企业名称,能够实现大规模的企业名称的模糊匹配,能够提高匹配的准确度和大规模匹配的效率,实现长短名称匹配,进而能够为业务流程的办理提供保障,提高用户体验。
从硬件层面来说,为了通过有效提高企业名称识别的准确性和效率,以提高人工智能客户转接或者企业风险控制的准确性,本申请提供一种用于实现所述企业名称识别方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现所述企业名称识别装置以及用户终端等相关设备之间的信息传输;该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照实施例用于实现所述企业名称识别方法的实施例及用于实现所述企业名称识别装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
图16为本申请实施例的电子设备9600的系统构成的示意框图。如图16所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图16是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
在本申请一个或多个实施例中,企业名称识别功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
步骤100:获取目标语音对应的文字信息。
步骤200:将所述目标语音对应的文字信息输入预获取的企业名称实体词汇提取模型,并将该企业名称实体词汇提取模型的输出作为该目标语音对应的企业名称实体词汇。
步骤300:基于对齐音码相似度算法和滑动窗口相似度算法分别得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果,并根据得到的两个相似度结果确定所述目标语音对应的目标企业名称的识别结果。
从上述描述可知,本申请的实施例提供的电子设备,提高文件传输的效率,并节省网络带宽和处理器资源的占用。
在另一个实施方式中,企业名称识别装置可以与中央处理器9100分开配置,例如可以将企业名称识别装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现企业名称识别功能。
如图16所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图16中所示的所有部件;此外,电子设备9600还可以包括图16中没有示出的部件,可以参考现有技术。
如图16所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
上述描述可知,本申请的实施例提供的电子设备,能够通过有效提高企业名称识别的准确性和效率,以提高人工智能客户转接或者企业风险控制的准确性。
本申请的实施例还提供能够实现上述实施例中的企业名称识别方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的企业名称识别方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤100:获取目标语音对应的文字信息。
步骤200:将所述目标语音对应的文字信息输入预获取的企业名称实体词汇提取模型,并将该企业名称实体词汇提取模型的输出作为该目标语音对应的企业名称实体词汇。
步骤300:基于对齐音码相似度算法和滑动窗口相似度算法分别得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果,并根据得到的两个相似度结果确定所述目标语音对应的目标企业名称的识别结果。
从上述描述可知,本申请实施例提供的计算机可读存储介质,能够通过有效提高企业名称识别的准确性和效率,以提高人工智能客户转接或者企业风险控制的准确性。
本申请中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本申请中应用了具体实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (20)
1.一种企业名称识别方法,其特征在于,包括:
获取目标语音对应的文字信息;
将所述目标语音对应的文字信息输入预获取的企业名称实体词汇提取模型,并将该企业名称实体词汇提取模型的输出作为该目标语音对应的企业名称实体词汇;
基于对齐音码相似度算法和滑动窗口相似度算法分别得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果,并根据得到的两个相似度结果确定所述目标语音对应的目标企业名称的识别结果;
所述基于对齐音码相似度算法和滑动窗口相似度算法分别得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果,包括:
从预存储的拼音编码表中获取所述企业名称实体词汇和企业名称候选集中的各个候选企业名称词汇分别对应的拼音编码,并根据该拼音编码生成该企业名称实体词汇对应的目标企业名称拼音编码组和该企业名称候选集对应的候选企业名称矩阵;
若生成多组目标企业名称拼音编码组,则将各组所述目标企业名称拼音编码组分别从第一初始滑动矩阵中各行的首位开始以单字的长度间隔向末位滑动,直至该目标企业名称拼音编码组的末位与该第一初始滑动矩阵的末位对齐,每次滑动后的行空余部分填充空余编码,以生成目标企业名称滑动矩阵,该第一初始滑动矩阵的长度与长度最长的目标企业名称拼音编码组的长度相同;
应用所述目标企业名称滑动矩阵、候选企业名称矩阵、预设的权重因子和最小企业名称长度,得到所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果,其中,该最小企业名称长度为该各个候选企业名称词汇和所述企业名称实体词汇中长度最小的企业名称的长度值;
基于所述对齐音码相似度算法得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果;
所述对齐音码相似度算法如下所示:
其中,simA表示企业名称实体词汇与候选企业名称之间的齐音码相似度结果组成的向量,B表示所述候选企业名称矩阵,M表示所述目标企业名称对齐矩阵,diff(B,M)表示所述候选企业名称矩阵B与所述目标企业名称对齐矩阵M之间的差异,W表示音编码权重向量,dis(B)表示企业名称实体词汇的长度;
所述滑动窗口相似度算法如下所示:
其中,simB表示企业名称实体词汇与候选企业名称之间的滑动窗口相似度结果组成的向量,B表示所述候选企业名称矩阵、P表示所述目标企业名称滑动矩阵、W表示音编码权重向量,diff(B,P)表示所述候选企业名称矩阵B和所述目标企业名称滑动矩阵P之间的差异;max(diff(B,P)·W)表示取不同滑动窗口长度的最大计算结果,min(dis(B,P))表示各个候选企业名称词汇和企业名称实体词汇长度中的最小长度。
2.根据权利要求1所述的企业名称识别方法,其特征在于,所述基于对齐音码相似度算法和滑动窗口相似度算法分别得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果,包括:
从预存储的拼音编码表中获取所述企业名称实体词汇和企业名称候选集中的各个候选企业名称词汇分别对应的拼音编码,并根据该拼音编码分别生成该企业名称实体词汇对应的目标企业名称对齐矩阵和该企业名称候选集对应的候选企业名称矩阵,其中,该目标企业名称对齐矩阵和候选企业名称矩阵各行均首字对齐且末尾空余部分填充空余编码;
基于所述目标企业名称对齐矩阵、候选企业名称矩阵、预设的权重因子和所述企业名称实体词汇的长度,得到所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果;
基于所述滑动窗口相似度算法得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果。
3.根据权利要求1或2所述的企业名称识别方法,其特征在于,所述从预存储的拼音编码表中获取所述企业名称实体词汇和企业名称候选集中的各个候选企业名称词汇分别对应的拼音编码,包括:
将所述企业名称实体词汇转化成对应的企业拼音向量组,该企业拼音向量组以所述企业名称实体词汇中各个单字的声母、韵母、补韵母和声调排列;
将所述候选企业名称词汇分别转化成对应的候选企业拼音向量组,该候选企业拼音向量组以所述候选企业名称词汇中各个单字的声母、韵母、补韵母和声调排列;
应用所述预存储的拼音编码表分别对企业拼音向量组和候选企业拼音向量组进行拼音编码。
4.根据权利要求1所述的企业名称识别方法,其特征在于,在所述将所述目标语音对应的文字信息输入预获取的企业名称实体词汇提取模型之前,还包括:
采集多条语音对应的文字信息和各个文字信息分别对应的企业名称;
应用所述文字信息及分别对应的企业名称训练所述企业名称实体词汇提取模型,其中,该企业名称实体词汇提取模型为传统要素提取模型、LSTM-CRF模型和BERT-CRF模型中的一种。
5.根据权利要求1所述的企业名称识别方法,其特征在于,所述根据得到的两个相似度结果确定所述目标语音对应的目标企业名称的识别结果,包括:
根据应用所述对齐音码相似度算法得到的所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果、应用所述滑动窗口相似度算法得到的所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果以及预设的权重因子,得到所述目标企业名称的识别结果。
6.根据权利要求1所述的企业名称识别方法,其特征在于,在所述根据得到的两个相似度结果确定所述目标语音对应的目标企业名称的识别结果之后,还包括:
按照预设的排序规则对所述目标企业名称的识别结果进行排序,并将排序后得到的目标企业名称列表输出显示。
7.根据权利要求1所述的企业名称识别方法,其特征在于,在所述将该企业名称实体词汇提取模型的输出作为该目标语音对应的企业名称实体词汇之后,还包括:
对所述企业名称实体词汇进行弱相关词置换和/或删除处理。
8.根据权利要求1所述的企业名称识别方法,其特征在于,在所述将所述目标语音对应的文字信息输入预获取的企业名称实体词汇提取模型之前,还包括:
过滤所述目标语音对应的文字信息中的无效字符;
对过滤后的文字信息进行预处理,以对该文字信息分别进行指代关系的替换和/或分词。
9.根据权利要求1所述的企业名称识别方法,其特征在于,还包括:
根据所述企业名称实体词汇、以及该企业名称实体词汇中的单字和对应的拼音,从预存储的索引库中得到所述企业名称候选集。
10.一种企业名称识别装置,其特征在于,包括:
获取模块,用于获取目标语音对应的文字信息;
获取企业名称实体词汇模块,用于将所述目标语音对应的文字信息输入预获取的企业名称实体词汇提取模型,并将该企业名称实体词汇提取模型的输出作为该目标语音对应的企业名称实体词汇;
识别模块,用于基于对齐音码相似度算法和滑动窗口相似度算法分别得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果,并根据得到的两个相似度结果确定所述目标语音对应的目标企业名称的识别结果;
所述识别模块包括:
获取拼音编码单元,用于从预存储的拼音编码表中获取所述企业名称实体词汇和企业名称候选集中的各个候选企业名称词汇分别对应的拼音编码;
生成单元,用于根据所述拼音编码生成所述企业名称实体词汇对应的目标企业名称拼音编码组和所述企业名称候选集对应的候选企业名称矩阵;
生成目标企业名称滑动矩阵单元,用于若生成多组目标企业名称拼音编码组,则将各组所述目标企业名称拼音编码组分别从第一初始滑动矩阵中各行的首位开始以单字的长度间隔向末位滑动,直至该目标企业名称拼音编码组的末位与该第一初始滑动矩阵的末位对齐,每次滑动后的行空余部分填充空余编码,以生成目标企业名称滑动矩阵,该第一初始滑动矩阵的长度与长度最长的目标企业名称拼音编码组的长度相同;
滑动窗口相似度算法单元,用于应用所述目标企业名称滑动矩阵、候选企业名称矩阵、预设的权重因子和最小企业名称长度,得到所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果,其中,该最小企业名称长度为该各个候选企业名称词汇和所述企业名称实体词汇中长度最小的企业名称的长度值;
第二相似度结果单元,用于基于所述对齐音码相似度算法得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果;
所述对齐音码相似度算法如下所示:
其中,simA表示企业名称实体词汇与候选企业名称之间的齐音码相似度结果组成的向量,B表示所述候选企业名称矩阵,M表示所述目标企业名称对齐矩阵,diff(B,M)表示所述候选企业名称矩阵B与所述目标企业名称对齐矩阵M之间的差异,W表示音编码权重向量,dis(B)表示企业名称实体词汇的长度;
所述滑动窗口相似度算法如下所示:
其中,simB表示企业名称实体词汇与候选企业名称之间的滑动窗口相似度结果组成的向量,B表示所述候选企业名称矩阵、P表示所述目标企业名称滑动矩阵、W表示音编码权重向量,diff(B,P)表示所述候选企业名称矩阵B和所述目标企业名称滑动矩阵P之间的差异;max(diff(B,P)·W)表示取不同滑动窗口长度的最大计算结果,min(dis(B,P))表示各个候选企业名称词汇和企业名称实体词汇长度中的最小长度。
11.根据权利要求10所述的企业名称识别装置,其特征在于,所述识别模块包括:
获取拼音编码单元,用于从预存储的拼音编码表中获取所述企业名称实体词汇和企业名称候选集中的各个候选企业名称词汇分别对应的拼音编码;
获取对齐矩阵单元,用于根据所述拼音编码分别生成所述企业名称实体词汇对应的目标企业名称对齐矩阵和所述企业名称候选集对应的候选企业名称矩阵,其中,该目标企业名称对齐矩阵和候选企业名称矩阵各行均首字对齐且末尾空余部分填充空余编码;
齐音码相似度计算单元,用于基于所述目标企业名称对齐矩阵、候选企业名称矩阵、预设的权重因子和所述企业名称实体词汇的长度,得到所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果;
第一相似度结果单元,用于基于所述滑动窗口相似度算法得到所述企业名称实体词汇与预设的企业名称候选集之间的相似度结果。
12.根据权利要求10或11所述的企业名称识别装置,其特征在于,所述获取拼音编码单元,包括:
获取企业拼音向量组子单元,用于将所述企业名称实体词汇转化成对应的企业拼音向量组,该企业拼音向量组以所述企业名称实体词汇中各个单字的声母、韵母、补韵母和声调排列;
获取候选企业拼音向量组子单元,用于将所述候选企业名称词汇分别转化成对应的候选企业拼音向量组,该候选企业拼音向量组以所述候选企业名称词汇中各个单字的声母、韵母、补韵母和声调排列;
拼音编码子单元,用于应用所述预存储的拼音编码表分别对企业拼音向量组和候选企业拼音向量组进行拼音编码。
13.根据权利要求10所述的企业名称识别装置,其特征在于,还包括:
采集历史数据模块,用于采集多条语音对应的文字信息和各个文字信息分别对应的企业名称;
训练模块,用于应用所述文字信息及分别对应的企业名称训练所述企业名称实体词汇提取模型,其中,该企业名称实体词汇提取模型为传统要素提取模型、LSTM-CRF模型和BERT-CRF模型中的一种。
14.根据权利要求10所述的企业名称识别装置,其特征在于,所述识别模块包括:
识别单元,用于根据应用所述对齐音码相似度算法得到的所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果、应用所述滑动窗口相似度算法得到的所述企业名称实体词汇和预设的企业名称候选集之间的相似度结果以及预设的权重因子,得到所述目标企业名称的识别结果。
15.根据权利要求10所述的企业名称识别装置,其特征在于,还包括:
排序并显示模块,用于按照预设的排序规则对所述目标企业名称的识别结果进行排序,并将排序后得到的目标企业名称列表输出显示。
16.根据权利要求10所述的企业名称识别装置,其特征在于,还包括:
弱相关词处理模块,用于对所述企业名称实体词汇进行弱相关词置换和/或删除处理。
17.根据权利要求10所述的企业名称识别装置,其特征在于,还包括:
过滤模块,用于过滤所述目标语音对应的文字信息中的无效字符;
预处理模块,用于对过滤后的文字信息进行预处理,以对该文字信息分别进行指代关系的替换和/或分词。
18.根据权利要求10所述的企业名称识别装置,其特征在于,还包括:
获取企业名称候选集模块,用于根据所述企业名称实体词汇、以及该企业名称实体词汇中的单字和对应的拼音,从预存储的索引库中得到所述企业名称候选集。
19.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至9任一项所述的企业名称识别方法。
20.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现权利要求1至9任一项所述的企业名称识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010227831.8A CN111445903B (zh) | 2020-03-27 | 2020-03-27 | 企业名称识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010227831.8A CN111445903B (zh) | 2020-03-27 | 2020-03-27 | 企业名称识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111445903A CN111445903A (zh) | 2020-07-24 |
CN111445903B true CN111445903B (zh) | 2023-09-12 |
Family
ID=71649205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010227831.8A Active CN111445903B (zh) | 2020-03-27 | 2020-03-27 | 企业名称识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111445903B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395501A (zh) * | 2020-11-17 | 2021-02-23 | 航天信息股份有限公司 | 企业推荐方法、装置、存储介质及电子设备 |
CN112765976A (zh) * | 2020-12-30 | 2021-05-07 | 北京知因智慧科技有限公司 | 文本相似度计算方法、装置、设备及存储介质 |
CN113051923B (zh) * | 2021-04-22 | 2023-03-21 | 平安普惠企业管理有限公司 | 数据验证方法、装置、计算机设备和存储介质 |
CN113239261A (zh) * | 2021-06-18 | 2021-08-10 | 红盾大数据(北京)有限公司 | 企业名称匹配方法及装置 |
WO2023093116A1 (zh) * | 2021-11-25 | 2023-06-01 | 上海帜讯信息技术股份有限公司 | 企业的产业链节点确定方法、装置、终端及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886859A (zh) * | 2014-02-14 | 2014-06-25 | 河海大学常州校区 | 基于一对多码书映射的语音转换方法 |
CN109963022A (zh) * | 2018-12-27 | 2019-07-02 | 广州云趣信息科技有限公司 | 一种基于soundex算法的语音电话本找人方法及流程 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10417500B2 (en) * | 2017-12-28 | 2019-09-17 | Disney Enterprises, Inc. | System and method for automatic generation of sports media highlights |
-
2020
- 2020-03-27 CN CN202010227831.8A patent/CN111445903B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886859A (zh) * | 2014-02-14 | 2014-06-25 | 河海大学常州校区 | 基于一对多码书映射的语音转换方法 |
CN109963022A (zh) * | 2018-12-27 | 2019-07-02 | 广州云趣信息科技有限公司 | 一种基于soundex算法的语音电话本找人方法及流程 |
Non-Patent Citations (1)
Title |
---|
G. Synnaeve等.Phonetics embedding learning with side information.2014 IEEE Spoken Language Technology Workshop (SLT), South Lake Tahoe, NV, USA,.2015,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111445903A (zh) | 2020-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111445903B (zh) | 企业名称识别方法及装置 | |
CN108305641B (zh) | 情感信息的确定方法和装置 | |
CN109325091B (zh) | 兴趣点属性信息的更新方法、装置、设备及介质 | |
CN107657017A (zh) | 用于提供语音服务的方法和装置 | |
CN111949784A (zh) | 基于意图识别的外呼方法及装置 | |
KR101901920B1 (ko) | 인공지능 음성인식 딥러닝을 위한 음성 및 텍스트 간 역전사 서비스 제공 시스템 및 방법 | |
US20100217591A1 (en) | Vowel recognition system and method in speech to text applictions | |
CN111310440A (zh) | 文本的纠错方法、装置和系统 | |
CN111667810B (zh) | 多音字语料的获取方法、装置、可读介质和电子设备 | |
CN110827803A (zh) | 方言发音词典的构建方法、装置、设备及可读存储介质 | |
CN111798118B (zh) | 企业经营风险监控方法及装置 | |
CN108922512A (zh) | 一种个性化机器人电话客服系统 | |
CN112686041B (zh) | 一种拼音标注方法及装置 | |
CN111581347B (zh) | 语句相似度匹配方法及装置 | |
CN113486661A (zh) | 一种文本理解方法、系统、终端设备和存储介质 | |
CN110517672A (zh) | 用户意图识别方法、用户指令执行方法、系统及设备 | |
CN116737883A (zh) | 人机交互方法、装置、设备及存储介质 | |
CN114528851B (zh) | 回复语句确定方法、装置、电子设备和存储介质 | |
CN116415597A (zh) | 语音翻译、同声传译方法 | |
CN114519094A (zh) | 基于随机状态的话术推荐方法、装置及电子设备 | |
CN110399615B (zh) | 交易风险监控方法及装置 | |
CN115048102A (zh) | 代码生成方法、装置、设备和存储介质 | |
CN113724690A (zh) | Ppg特征的输出方法、目标音频的输出方法及装置 | |
CN113204623A (zh) | 问答方法及装置 | |
CN110931014A (zh) | 基于正则匹配规则的语音识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |