CN113051923A - 数据验证方法、装置、计算机设备和存储介质 - Google Patents
数据验证方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113051923A CN113051923A CN202110436969.3A CN202110436969A CN113051923A CN 113051923 A CN113051923 A CN 113051923A CN 202110436969 A CN202110436969 A CN 202110436969A CN 113051923 A CN113051923 A CN 113051923A
- Authority
- CN
- China
- Prior art keywords
- name
- names
- verified
- knowledge base
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种数据验证方法方法、装置、计算机设备和存储介质,该方法包括:对语音信息进行命名实体提取,得到待校验名称;将待校验名称与知识库中的词条进行匹配;若存在与待校验名称的相匹配的词条,则将与待校验名称的相匹配的词条对应的名称作为待校验名称的验证名称;若不存在与待校验名称的相匹配的词条,则将待校验名称与知识库中的词条进行相似度计算,筛选出N个与待校验名称的相似度大于预设相似度阈值的词条对应的名称作为待校验名称的验证名称;计算各验证名称和用户的预存名称的相似度,建立计算得到的相似度结果与用户的映射关系。上述方法可以提高验证用户输入的语音信息中包含的名称与用于预存的名称的匹配度的准确度。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是涉及数据验证方法、装置、计算机设备和存储介质。
背景技术
在自然语言处理技术领域,对文本序列中的命名实体(Entity)进行分类,是研究的一个重要方向。命名实体,在词性中具有名词性质,包括人名、机构名、地名以及其他所有以名称为标识的实体类别。更广泛的命名实体还包括数字、日期、货币、地址等类别。对命名实体的类别进行准确识别,能够提高自然语言处理的准确性和有效性。
目前在信贷审批领域,有一个重要的流程就是判断用户在智能审批过程中,所表述的单位机构名称和用户预先填写的是否一致,在真实对话环境中,由于噪音,简称,音转字等因素的影响,用户所表述的话并不能保证转化正确,同时,还需要验证根据用户所说的话中提取的名称是否与用户预留的名称一致的问题。
发明内容
基于此,提供一种数据验证方法、装置、计算机设备和存储介质,能够提高用户的语音信息的识别效果较为准确的识别出用户语音中包含的名称,从而提高了用户语音信息中包含的名称与用户预存的名称一致性验证的准确度。
一种数据验证方法,包括:
获取用户输入的语音信息,对所述语音信息进行命名实体提取,得到待校验名称;
将所述待校验名称与知识库中的词条进行匹配,其中,所述知识库中的词条包括:企业名称、企业名称简称和企业名称的歧义词条;
若所述知识库中存在与所述待校验名称的相匹配的词条,则将所述与所述待校验名称的相匹配的词条对应的名称作为所述待校验名称的验证名称;
若所述知识库中不存在与所述待校验名称的相匹配的词条,则将所述待校验名称与所述知识库中的词条进行相似度计算,从所述知识库中筛选出N个与所述待校验名称的相似度大于预设相似度阈值的词条对应的名称作为所述待校验名称的验证名称,其中,N大于等于1且小于预设的个数阈值;
计算各所述验证名称和用户的预存名称的相似度,并建立计算得到的相似度结果与所述用户的映射关系。
在其中一个实施例中,在计算所述验证名称和用户的预存名称的相似度,之前还包括:接收用户输入的唯一身份信息,并根据所述唯一身份信息确定用户的预存名称。
在其中一个实施例中,在所述将所述待校验名称与知识库中的词条进行匹配之前,还包括构建所述知识库;
所述构建所述知识库包括:
获取名称,构建初始知识库,其中,所述初始知识库中的词条包括名称,所述名称包括用户的历史预存名称和/或通过第三方获取的名称;
统计各所述历史预存名称对应的用户数量,基于所述用户数量对所有的历史预存名称进行排序;
选择排在所述排序结果的首端或末端的预设个数的历史预存名称为热门名称,或,选择所述排序结果中对应的用户数量大于预设数量阈值的历史预存名称为热门名称;其中,任一所述热门名称对应的用户数量大于除所述热门名称以外的其他历史预存名称对应的用户数量;
确定所述热门名称的名称简称,以及确定所述热门名称的歧义词条;
将所述名称简称和所述名称的歧义词条增加至所述初始知识库,得到所述知识库。
在其中一个实施例中,所述确定所述热门名称的候选简称,包括:
获取对用户输入的历史语音信息进行命名实体识别提取的历史待校验名称;
根据所述历史待校验名称的字符串长度,筛选出字符串长度小于第一预设长度阈值的待校验名称为候选简称;
对所述热门名称进行语义分割,得到多个分词;
将所述候选简称转换成表征所述候选简称的第一笔画信息,各所述热门名称的所有分词中与所述候选简称字符串长度相同的分词转成表征所述分词的第二笔画信息;
根据所述第一笔画信息和第二笔画信息,获取所述第一笔画信息变换到所述第二笔画信息之间的变换次数;
根据所述变换次数,计算所述候选简称与所有的所述热门名称的匹配度;
根据所述匹配度,选择与所述热门企业的分词最高匹配度候选简称为所述热门名称的企业简称。
在其中一个实施例中,所述根据所述匹配度,选择与所述热门企业的分词最高匹配度候选简称为所述热门名称的企业简称,包括:
判断所述热门名称的名称简称是否是唯一的;
若是唯一的,则所述热门名称的名称简称为所述唯一的名称简称;
若所述热门名称对应有至少两个名称简称,则根据预设的名称简称筛选规则选择相应的名称简称为所热门名称的名称简称。
在其中一个实施例中,所述确定所述名称的歧义词条包括:所述确定所述名称的歧义词条,包括:
获取对用户输入的历史语音信息进行命名实体识别提取的历史待校验名称;
根据所述历史待校验名称的字符串长度,筛选出字符串长度大于第二预设长度阈值的待校验名称;
将所述历史待校验名称与所述初始知识库中的名称进行匹配,筛选在所述初始知识库中不存在匹配项的历史待校验名称为名称的候选歧义词条;
将所述候选歧义词条和所述热门名称转化为第一拼音信息和第二拼音信息,计算所述第一拼音信息和所述第二拼音信息中相同位置上的字符是否是音似字,
如果相同位置上的字符是音似字,根据所述编辑距离对所述第一拼音信息和第二拼音信息进行匹配计算,计算基于拼音的最长公共子序列的相似度;
根据得到的基于拼音的最长公共子序列的相似度,对所述热门名称进行排序,从所述热门名称中选出与所述候选歧义词条最相近的候选歧义词条。
在其中一个实施例中,所述将所述候选歧义词条和所述热门名称转化为第一拼音信息和第二拼音信息,计算所述第一拼音信息和所述第二拼音信息中相同位置上的字符是否是音似字,包括:
将所述候选歧义词条和所述热门名称通过拼音转化得到对应的拼音结构,包含声母、韵母和声调;
若所相同位置上字符对应的拼音信息中只有音调不同,则确定所述相同位置上的字符是音似字;和/或,若所述第一拼音信息和第二拼音信息中相同位置上字符对应的拼音信息中包含有声母模糊音且韵母和声调相同时,则确定所述相同位置上的字符是音似字;和/或,若所述第一拼音信息和第二拼音信息中相同位置上字符对应的拼音信息中包含有韵母模糊音且声母和声调相同时,则确定所述相同位置上的字符是音似字。
一种数据验证方法装置,所述测试装置包括:
语音输入单元,用于获取用户输入的语音信息,对所述语音信息进行命名实体提取,得到待校验名称;
匹配单元,用于将所述待校验名称与知识库中的词条进行匹配,其中,所述知识库中的词条包括:企业名称、企业名称简称和企业名称的歧义词条;
第一校验单元,用于若所述知识库中存在与所述待校验名称的相匹配的词条,则将所述与所述待校验名称的相匹配的词条对应的名称作为所述待校验名称的验证名称;
第二校验单元,用于若所述知识库中不存在与所述待校验名称的相匹配的词条,则将所述待校验名称与所述知识库中的词条进行相似度计算,从所述知识库中筛选出N个与所述待校验名称的相似度大于预设相似度阈值的词条对应的名称作为所述待校验名称的验证名称,其中,N大于等于1且小于预设的个数阈值;
相似度计算单元,用于计算各所述验证名称和用户的预存名称的相似度,并建立计算得到的相似度结果与所述用户的映射关系。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述数据验证方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述数据验证方法的步骤。
上述数据验证方法、装置、计算机设备和存储介质,首先,对语音信息进行命名实体提取,得到待校验名称,然后,将待校验名称与知识库中的词条进行匹配,根据匹配结果,得到与待校验名称的相似度大于预设相似度阈值的词条对应的名称作为待校验名称的验证名称,最后,计算各验证名称和用户的预存名称的相似度,并建立计算得到的相似度结果与用户的映射关系。现有技术得到的语音信息识别结果可能存在字错音准的情况,因此,采用将从语音信息中提取的命名实体与知识库的词条进行匹配,确定知识库中与提取的命名实体相似度比较高的词条对应的名称作为语言信息的验证名称,从而解决了语音识别精准度低的问题;且计算各验证名称和用户的预存名称的相似度,能够进一步提高从验证名称与预存名称进行匹配的准确性,进而能够更为精准的验证用户在输入的含有名称的语音信息的精准度,最终将该准确度与用户进行关联,以方便在需要时可以直接调用用户输入的语音信息与用户的预留的名称的匹配度,确定用户的信用级别。
附图说明
图1为一个实施例中提供的数据验证方法的实施环境图;
图2为一个实施例中计算机设备的内部结构框图;
图3为一个实施例中数据验证方法的流程图;
图4为一个实施例中数据验证方法装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下。
图1为一个实施例中提供的数据验证方法的实施环境图,如图1所示,在该实施环境中,包括计算机设备110以及终端120。
计算机设备110为名称匹配设备,例如为贷审批场景下使用的名称验证工具。终端120上安装有需要进行用户输入名称的语音设备,当需要采集名称时,计算机设备110接收该用户通过终端用户输入的语音信息,计算机设备110利用数据验证方法执行该数据验证方法脚本,得到名称验证结果。
需要说明的是,终端120以及计算机设备110可为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。计算机设备110以及终端110可以通过蓝牙、USB(UniversalSerialBus,通用串行总线)或者其他通讯连接方式进行连接,本发明在此不做限制。
图2为一个实施例中计算机设备的内部结构示意图。如图2所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、知识库和计算机可读指令,知识库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种数据验证方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种数据验证方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
如图3所示,在一个实施例中,提出了一种数据验证方法,该数据验证方法可以应用于上述的计算机设备110中,具体可以包括以下步骤:
步骤301、获取用户输入的语音信息,对语音信息进行命名实体提取,得到待校验名称。
其中,命名实体可以是用户的单位(企业)名称。
本实施例中,基于ASR将用户说话的语音转换成文字版本的句子,其中,自动语音识别(AutomaticSpeechRecognition简称“ASR“)技术的目标是让计算机能够“听写”出不同人所说出的连续语音,也就是俗称的“语音听写机”,是实现“声音”到“文字”转换的技术。自动语音识别也称为语音识别(SpeechRecognition)或计算机语音识别(ComputerSpeechRecognition)。
对语音信息进行命名实体提取,得到待校验名称,可以是基于抽取实体的模型BERT-CRF模型,采用BIO标记,对文字版本的句子进行实体抽取,得到抽取单位名称。其中BERT的[CLS],[SEP]位置用标签[O]表示。模型主要包含输入层、BERT层和CRF层。其中,BERT模型是通过带实体标记的样本预处理单位名称文本数据信息训练得到,CRF模型是通过带实体标记和语序标记的样本单位名称文本向量信息训练得到。
可以理解的是,BERT模型是通过带实体标记的样本预处理单位名称文本数据信息训得到,预设BiLSTM-CRF模型是通过带实体标记和语序标记的样本单位名称文本向量信息训练得到。对于预设BERT模型的训练主要是通过MaskedLM任务和NextSentencePrediction任务一起训练得到的。
每个句子的开头嵌入特殊分类标记[CLS]在每个句子的末尾插入[SEP]标记,同时对单位名称文本序列的上下文句子关系进行编码,如果与下一个句子存在语序关系,则下一个句子的句首增加编码为1,否则为0,即本发明实施例中所描述的语序标记。对本发明实施例中所描述的样本单位名称文本向量信息中的部分文本信息进行掩盖处理,并通过其它未掩盖的文本上下文信息来预测被掩盖的文本内容,预测值损失函数稳定收敛,完成MaskedLM任务。
步骤302、将待校验名称与知识库中的词条进行匹配,其中,知识库中的词条包括:企业名称、企业名称简称和企业名称的歧义词条。
本实施例中,知识库包括三部分,其一为完整的单位名称库,其二为以及完整的单位名称对应的单位名称简称,其三,为完整的单位名称和单位名称的歧义词条的映射关系,映射关系是为了解决用户的语音输入不标准(ASR转换错误)的问题,例如,上述步骤301中进行实体提取得到待校验名称是“华为基数有限公司”,显然这个名称是错误的,该歧义词条和知识库中的单位名称“华为技术有限公司”建立映射关系。
进一步地,在一些实施中,在上述步骤302之前,还包括构建知识库;
构建知识库包括:
步骤300a、获取名称,构建初始知识库,其中,初始知识库中的词条包括名称,名称包括用户的历史预存名称和/或通过第三方获取的名称。
可以理解的是,对于知识库的获取,首先建立自己的知识库,根据历史用户预留在贷款资质审核表中的单位名称建立一个内部知识库,然后利用多个外部知识库,例如百度、一企查等,从这些外部知识库中,获取更加丰富的单位名称,组成一个更大的知识库,但是这些知识库没有包含单位简称。
步骤300b、统计各历史预存名称对应的用户数量,基于用户数量对所有的历史预存名称进行排序;
可以理解的是,历史预存名称是已有的用户预存的名称,这里的预存名称是完整的名称。
步骤300c、选择排在排序结果的首端或末端的预设个数的历史预存名称为热门名称,或,选择排序结果中对应的用户数量大于预设数量阈值的历史预存名称为热门名称;其中,任一热门名称对应的用户数量大于除热门名称以外的其他历史预存名称对应的用户数量;
在本实施例中,以预存名称对应的用户数量为依据,可对历史预存名称进行排序处理,例如可以是按照用户数量由长多到少形成所有节点的第一排序结果或者按照用户数量由少到多形成所有节点的第二排序结果,以便于对热门名称进行筛选。
对用户预留的单位名称进行统计找到“热门单位”,具体统计方法可以是根据用户预留的单位名称的比例高于预设比例则为热门单位,例如,预设比例是50%,统计样本是100个用户,其中55个用户预留的单位名称是“中国平安保险公司”,那么“中国平安保险公司”是热门单位;或者是,将预留单位名称的用户人数按由多到少依次排序,取靠前的预设数量的单位名称为“热门单位”。例如:预设数量是2个,统计样本是100个用户,预留“A单位”的用户人数是40个,预留“B单位”的用户人数是30个,预留“C单位”的用户人数是20个,预留“D单位”的用户人数是10个,那么排序结果是A-B-C-D,“A单位”和“B单位”是热门单位。
步骤300d、确定热门名称的名称简称,以及确定热门名称的歧义词条;
步骤300e、将名称简称和名称的歧义词条增加至初始知识库,得到知识库。
在本实施例中,对于这点,可以从历史用户预留的单位名入手,统计预留历史单位名称的数量,将出现次数大于N次的单位名称标记为“热门单位”,并根据“热门单位”,统计用户在对话时所说的单位名称的数量,将出现次数大于M次的单位名称标记为“公司简称”,然后将“公司简称”添加进知识库中。映射库的建立可以包括:对于ASR将用户说话的语音转换成文字带来的噪声问题,包括夹杂字符,如“华为技术有限公司”,或错别字,例如“啊,单位啊,是华为基数有限公司”,针对这种噪声名称,首先使用文字清洗方法,将特殊符号给去除掉,然后利用历史用户回答语料,做一个映射表。
在一些实施例中,上述步骤300d中确定热门名称的候选简称,包括:
步骤300d11、获取对用户输入的历史语音信息进行命名实体识别提取的历史待校验名称;
步骤300d12、根据历史待校验名称的字符串长度,筛选出字符串长度小于第一预设长度阈值的待校验名称为候选简称;
其中,简称一般都很短,所以根据字符串的长度,从历史待校验名称中选择出可能是企业简称的部分。
其中,只有字符串长度相同才有可能是相同的词的可能,如果字符串长度都不同,则没有比较的必要。
步骤300d13、对热门名称进行语义分割,得到多个分词;
其中,每个热门名称分,如“亚马逊(中国)投资有限公司”可以切分为“亚马逊”、“中国”、“投资”和“有限公司”,“亚马逊通技术服务(北京)有限公司”可以且分为“亚马逊通”、“技术服务”、“北京”和“有限公司”。
步骤300d14、将候选简称转换成表征候选简称的第一笔画信息,各热门名称的所有分词中与候选简称字符串长度相同的分词转成表征分词的第二笔画信息;
步骤300d15、根据第一笔画信息和第二笔画信息,获取第一笔画信息变换到第二笔画信息之间的变换次数;
这里的笔画信息是指将中文字串按照固定的笔画规则写成编码形式的字串,该笔画信息的表现形式有很多种,例如,该固定规则可以是:按照中文字串的笔画顺序,将该中文字串的笔画表现出来,例如,中文字串“十”可以写成“一丨”;但在实际应用中,有些中文字串的笔画相对较为复杂,这时就可以将该中文字串的笔画用一些编码进行表示,例如,可以将常用的汉字笔画与数字建立对应关系。如表2就是将常用的汉字笔画用数字进行表示,具体如下:笔画“一”用数字“1”表示,笔画“丨”和“亅”用数字“2”表示,笔画“丿”用数字“3”表示等。这里的第一笔画信息变换到第二笔画信息之间的变换次数,例如,根据表2中的数字与汉字笔画的对应关系,将中文字串“回力”表示为“252511 53”的笔画信息,串“回匕”表示为“252511 35”的笔画信息,根据这两笔画信息,只需将“53”进行一次数字交换变为“35”,即从字符“力”和字符“匕”之间的笔顺编辑距离为1。
步骤300d16、根据变换次数,计算候选简称与所有的热门名称的匹配度;
其中,变换的次数越少候选简称与所有的热门名称的匹配度越高。
步骤300d17、根据匹配度,选择与热门企业的分词最高匹配度候选简称为热门名称的企业简称。
进一步地,在一些实施例中,上述步骤300d17、根据匹配度,选择与热门企业的分词最高匹配度候选简称为热门名称的企业简称,包括:
判断热门名称的名称简称是否是唯一的;
若是唯一的,则热门名称的名称简称为唯一的名称简称;
若热门名称对应有至少两个名称简称,则根据预设的名称简称筛选规则选择相应的名称简称为所热门名称的名称简称。
这里的预设的名称简称筛选规则可以是,从热门单位对应的多个“单位简称”筛选出高频率(使用率高)的“单位简称”,建立常用的单位简称和“热门单位”的单位名称之间的关联关系。具体地,统计样本是预留单位名称是“中国平安保险公司”的100个用户,对应的简称是“中国平安”40次,“平安保险”40次,“平安”20次,那么,“中国平安保险公司”对应的简称为“中国平安”和“平安保险”。
步骤303、若知识库中存在与待校验名称的相匹配的词条,则将与待校验名称的相匹配的词条对应的名称作为待校验名称的验证名称。
在该步骤中,知识库和映射库都是预先建立好的,具体建立方式,就是按照上述方式建立的。在该步骤中,首先,将抽取单位名称和知识库中的单位名称进行匹配,如果匹配上的是知识库中的完整单位名称,则以该完整单位名称为待对比单位名称,如果匹配上的是简称,则以该简称对应的完整单位名称为待对比单位名称。如果匹配不上,则将抽取单位名称和映射库中的单位名称(即ASR转换错误的单位名称)进行匹配。在这里映射库中映射的双方其一是ASR转换错误的单位名称,另一方是单,也就是说,这里的匹配是将抽取单位名称和“ASR转换错误的单位名称”进行匹配,如果匹配上,则以“ASR转换错误的单位名称”对应的单位名称(正确的单位名称)作为待比对单位名称。
步骤304、若知识库中不存在与待校验名称的相匹配的词条,则将待校验名称与知识库中的词条进行相似度计算,从知识库中筛选出N个与待校验名称的相似度大于预设相似度阈值的词条对应的名称作为待校验名称的验证名称,其中,N大于等于1且小于预设的个数阈值。
该步骤中,采用编辑距离计算抽取单位名称和知识库中的单位名称的相似度,实质上是,通过ASR转换得到的抽取单位名称可能出现了文字上的错误,而该错误单位名称不在映射表中,此时需要通过编辑距离算法计算可能的单位名称作为候选单位名称。
进一步地,在一些实施中,上述步骤上述步骤300d中确定名称的歧义词条包括:确定名称的歧义词条,包括:
步骤300d21、获取对用户输入的历史语音信息进行命名实体识别提取的历史待校验名称;
步骤300d22、根据历史待校验名称的字符串长度,筛选出字符串长度大于第二预设长度阈值的待校验名称;
步骤300d23、将历史待校验名称与初始知识库中的名称进行匹配,筛选在初始知识库中不存在匹配项的历史待校验名称为名称的候选歧义词条;
在这里,第二预设长度阈值可以和第一预设长度阈值相等,也可不相等,可以理解的是,名称的候选歧义词条是除候选简称和在初始知识库中不存在匹配项的历史待校验名称以外的历史待校验名称。
步骤300d24、将候选歧义词条和热门名称转化为第一拼音信息和第二拼音信息,计算第一拼音信息和第二拼音信息中相同位置上的字符是否是音似字,
步骤300d25、如果相同位置上的字符是音似字,根据编辑距离对第一拼音信息和第二拼音信息进行匹配计算,计算基于拼音的最长公共子序列的相似度;
在本实施例中,自动语音识别可能出现失误,造成用户语音信息的转换成文字的时候出现错误,因此在本实施例中先要判断第一字串和第二字串中相同位置上的字符是否是音似字,如果两者是音似字说明可能出现转换错误,如果不是,则没有匹配的必要。
步骤300d26、根据得到的基于拼音的最长公共子序列的相似度,对热门名称进行排序,从热门名称中选出与候选歧义词条最相近的候选歧义词条。
进一步地,在一个实施例中,上述步骤步骤300d24、将候选歧义词条和热门名称转化为第一拼音信息和第二拼音信息,计算第一拼音信息和第二拼音信息中相同位置上的字符是否是音似字,包括:
将候选歧义词条和热门名称通过拼音转化得到对应的拼音结构,包含声母、韵母和声调;
若所相同位置上字符对应的拼音信息中只有音调不同,则确定相同位置上的字符是音似字;和/或,若第一拼音信息和第二拼音信息中相同位置上字符对应的拼音信息中包含有声母模糊音且韵母和声调相同时,则确定相同位置上的字符是音似字;和/或,若第一拼音信息和第二拼音信息中相同位置上字符对应的拼音信息中包含有韵母模糊音且声母和声调相同时,则确定相同位置上的字符是音似字。
本实施例中,拼音信息指将中文字串按照固定的拼音规则写成拼音编码形式的字串,该拼音编码形式的字串用来表征中文字串的拼音信息,且该编码形式的字串的表现形式有很多种,例如,该固定规则可以是将中文字串中字符分别写成“声母+韵母+声调”的形式,例如,对于中文字串“间”可以写成“jian1”,即声母为“j”,韵母为“ian”,拼音为一声,即“1”,这里不作具体限定。
步骤305、计算各验证名称和用户的预存名称的相似度,并建立计算得到的相似度结果与用户的映射关系。
可选地,采用基于Attention-DSSM算法训练的语义匹配模型计算各验证名称和用户的预存名称的相似度。
进一步地,在上述步骤305之前还包括:接收用户输入的唯一身份信息,并根据唯一身份信息确定用户的预存名称。
本实施例的方法还包括:接收用户输入的唯一身份信息,并根据唯一身份信息确定用户的预存名称。在这里唯一身份信息可以是身份证信息,根据用户的唯一身份信息可以确定用户的预存名称,这里的预存名称是指用户在具体的业务场景下,已经存储的名称。
本申请数据验证方法,首先,对语音信息进行命名实体提取,得到待校验名称,然后,将待校验名称与知识库中的词条进行匹配,根据匹配结果,得到与待校验名称的相似度大于预设相似度阈值的词条对应的名称作为待校验名称的验证名称,最后,计算各验证名称和用户的预存名称的相似度,并建立计算得到的相似度结果与用户的映射关系。现有技术得到的语音信息识别结果可能存在字错音准的情况,因此,采用将从语音信息中提取的命名实体与知识库的词条进行匹配,确定知识库中与提取的命名实体相似度比较高的词条对应的名称作为语言信息的验证名称,从而解决了语音识别精准度低的问题。基于Attention-DSSM算法训练的语义匹配模型计算验证名称和用户的预存名称的相似度,能够进一步提高从验证名称与预存名称进行匹配的准确性,进而能够更为精准的验证用户在输入的含有名称的语音信息的精准度,最终将该准确度与用户进行关联,以方便在需要时可以直接调用用户输入的语音信息与用户的预留的名称的匹配度,确定用户的信用级别。
如图4所示,在一个实施例中,提供了一种数据验证方法装置,该数据验证方法装置可以集成于上述的计算机设备110中,具体可以包括:
语音输入单元411,用于获取用户输入的语音信息,对语音信息进行命名实体提取,得到待校验名称;
匹配单元412,用于将待校验名称与知识库中的词条进行匹配,其中,知识库中的词条包括:企业名称、企业名称简称和企业名称的歧义词条;
第一校验单元413,用于若知识库中存在与待校验名称的相匹配的词条,则将与待校验名称的相匹配的词条对应的名称作为待校验名称的验证名称;
第二校验单元414,用于若知识库中不存在与待校验名称的相匹配的词条,则将待校验名称与知识库中的词条进行相似度计算,从知识库中筛选出N个与待校验名称的相似度大于预设相似度阈值的词条对应的名称作为待校验名称的验证名称,其中,N大于等于1且小于预设的个数阈值;
相似度计算单元415,用于计算各验证名称和用户的预存名称的相似度,并建立计算得到的相似度结果与用户的映射关系。
在一个实施例中,提出了一种计算机设备,计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取用户输入的语音信息,对语音信息进行命名实体提取,得到待校验名称;将待校验名称与知识库中的词条进行匹配,其中,知识库中的词条包括:企业名称、企业名称简称和企业名称的歧义词条;若知识库中存在与待校验名称的相匹配的词条,则将与待校验名称的相匹配的词条对应的名称作为待校验名称的验证名称;若知识库中不存在与待校验名称的相匹配的词条,则将待校验名称与知识库中的词条进行相似度计算,从知识库中筛选出N个与待校验名称的相似度大于预设相似度阈值的词条对应的名称作为待校验名称的验证名称,其中,N大于等于1且小于预设的个数阈值;计算各验证名称和用户的预存名称的相似度,并建立计算得到的相似度结果与用户的映射关系。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:获取用户输入的语音信息,对语音信息进行命名实体提取,得到待校验名称;将待校验名称与知识库中的词条进行匹配,其中,知识库中的词条包括:企业名称、企业名称简称和企业名称的歧义词条;若知识库中存在与待校验名称的相匹配的词条,则将与待校验名称的相匹配的词条对应的名称作为待校验名称的验证名称;若知识库中不存在与待校验名称的相匹配的词条,则将待校验名称与知识库中的词条进行相似度计算,从知识库中筛选出N个与待校验名称的相似度大于预设相似度阈值的词条对应的名称作为待校验名称的验证名称,其中,N大于等于1且小于预设的个数阈值;计算各验证名称和用户的预存名称的相似度,并建立计算得到的相似度结果与用户的映射关系。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)等非易失性存储介质,或随机存储记忆体(RandomAccessMemory,RAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种数据验证方法,其特征在于,包括:
获取用户输入的语音信息,对所述语音信息进行命名实体提取,得到待校验名称;
将所述待校验名称与知识库中的词条进行匹配,其中,所述知识库中的词条包括:企业名称、企业名称简称和企业名称的歧义词条;
若所述知识库中存在与所述待校验名称的相匹配的词条,则将所述与所述待校验名称的相匹配的词条对应的名称作为所述待校验名称的验证名称;
若所述知识库中不存在与所述待校验名称的相匹配的词条,则将所述待校验名称与所述知识库中的词条进行相似度计算,从所述知识库中筛选出N个与所述待校验名称的相似度大于预设相似度阈值的词条对应的名称作为所述待校验名称的验证名称,其中,N大于等于1且小于预设的个数阈值;
计算各所述验证名称和用户的预存名称的相似度,并建立计算得到的相似度结果与所述用户的映射关系。
2.如权利要求1所述的数据验证方法,其特征在于,在计算所述验证名称和用户的预存名称的相似度,之前还包括:接收用户输入的唯一身份信息,并根据所述唯一身份信息确定用户的预存名称。
3.如权利要求1所述的数据验证方法,其特征在于,在所述将所述待校验名称与知识库中的词条进行匹配之前,还包括构建所述知识库;
所述构建所述知识库包括:
获取名称,构建初始知识库,其中,所述初始知识库中的词条包括名称,所述名称包括用户的历史预存名称和/或通过第三方获取的名称;
统计各所述历史预存名称对应的用户数量,基于所述用户数量对所有的历史预存名称进行排序;
选择排在所述排序结果的首端或末端的预设个数的历史预存名称为热门名称,或,选择所述排序结果中对应的用户数量大于预设数量阈值的历史预存名称为热门名称;其中,任一所述热门名称对应的用户数量大于除所述热门名称以外的其他历史预存名称对应的用户数量;
确定所述热门名称的名称简称,以及确定所述热门名称的歧义词条;
将所述名称简称和所述名称的歧义词条增加至所述初始知识库,得到所述知识库。
4.如权利要求3所述的数据验证方法,其特征在于,所述确定所述热门名称的候选简称,包括:
获取对用户输入的历史语音信息进行命名实体识别提取的历史待校验名称;
根据所述历史待校验名称的字符串长度,筛选出字符串长度小于第一预设长度阈值的待校验名称为候选简称;
对所述热门名称进行语义分割,得到多个分词;
将所述候选简称转换成表征所述候选简称的第一笔画信息,各所述热门名称的所有分词中与所述候选简称字符串长度相同的分词转成表征所述分词的第二笔画信息;
根据所述第一笔画信息和第二笔画信息,获取所述第一笔画信息变换到所述第二笔画信息之间的变换次数;
根据所述变换次数,计算所述候选简称与所有的所述热门名称的匹配度;
根据所述匹配度,选择与所述热门企业的分词最高匹配度候选简称为所述热门名称的企业简称。
5.如权利要求4所述的数据验证方法,其特征在于,所述根据所述匹配度,选择与所述热门企业的分词最高匹配度候选简称为所述热门名称的企业简称,包括:
判断所述热门名称的名称简称是否是唯一的;
若是唯一的,则所述热门名称的名称简称为所述唯一的名称简称;
若所述热门名称对应有至少两个名称简称,则根据预设的名称简称筛选规则选择相应的名称简称为所热门名称的名称简称。
6.如权利要求3所述的数据验证方法,其特征在于,所述确定所述名称的歧义词条包括:所述确定所述名称的歧义词条,包括:
获取对用户输入的历史语音信息进行命名实体识别提取的历史待校验名称;
根据所述历史待校验名称的字符串长度,筛选出字符串长度大于第二预设长度阈值的待校验名称;
将所述历史待校验名称与所述初始知识库中的名称进行匹配,筛选在所述初始知识库中不存在匹配项的历史待校验名称为名称的候选歧义词条;
将所述候选歧义词条和所述热门名称转化为第一拼音信息和第二拼音信息,计算所述第一拼音信息和所述第二拼音信息中相同位置上的字符是否是音似字,
如果相同位置上的字符是音似字,根据所述编辑距离对所述第一拼音信息和第二拼音信息进行匹配计算,计算基于拼音的最长公共子序列的相似度;
根据得到的基于拼音的最长公共子序列的相似度,对所述热门名称进行排序,从所述热门名称中选出与所述候选歧义词条最相近的候选歧义词条。
7.如权利要求6所述的数据验证方法,其特征在于,所述将所述候选歧义词条和所述热门名称转化为第一拼音信息和第二拼音信息,计算所述第一拼音信息和所述第二拼音信息中相同位置上的字符是否是音似字,包括:
将所述候选歧义词条和所述热门名称通过拼音转化得到对应的拼音结构,包含声母、韵母和声调;
若所相同位置上字符对应的拼音信息中只有音调不同,则确定所述相同位置上的字符是音似字;和/或,若所述第一拼音信息和第二拼音信息中相同位置上字符对应的拼音信息中包含有声母模糊音且韵母和声调相同时,则确定所述相同位置上的字符是音似字;和/或,若所述第一拼音信息和第二拼音信息中相同位置上字符对应的拼音信息中包含有韵母模糊音且声母和声调相同时,则确定所述相同位置上的字符是音似字。
8.一种数据验证方法装置,其特征在于,所述测试装置包括:
语音输入单元,用于获取用户输入的语音信息,对所述语音信息进行命名实体提取,得到待校验名称;
匹配单元,用于将所述待校验名称与知识库中的词条进行匹配,其中,所述知识库中的词条包括:企业名称、企业名称简称和企业名称的歧义词条;
第一校验单元,用于若所述知识库中存在与所述待校验名称的相匹配的词条,则将所述与所述待校验名称的相匹配的词条对应的名称作为所述待校验名称的验证名称;
第二校验单元,用于若所述知识库中不存在与所述待校验名称的相匹配的词条,则将所述待校验名称与所述知识库中的词条进行相似度计算,从所述知识库中筛选出N个与所述待校验名称的相似度大于预设相似度阈值的词条对应的名称作为所述待校验名称的验证名称,其中,N大于等于1且小于预设的个数阈值;
相似度计算单元,用于计算各所述验证名称和用户的预存名称的相似度,并建立计算得到的相似度结果与所述用户的映射关系。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述数据验证方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述数据验证方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110436969.3A CN113051923B (zh) | 2021-04-22 | 2021-04-22 | 数据验证方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110436969.3A CN113051923B (zh) | 2021-04-22 | 2021-04-22 | 数据验证方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113051923A true CN113051923A (zh) | 2021-06-29 |
CN113051923B CN113051923B (zh) | 2023-03-21 |
Family
ID=76519966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110436969.3A Active CN113051923B (zh) | 2021-04-22 | 2021-04-22 | 数据验证方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113051923B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113889145A (zh) * | 2021-09-17 | 2022-01-04 | 平安银行股份有限公司 | 语音核验方法、装置、电子设备及介质 |
CN114707500A (zh) * | 2022-03-17 | 2022-07-05 | 深圳前海微众银行股份有限公司 | 一种工作单位名称校验方法及装置 |
CN116401177A (zh) * | 2023-06-09 | 2023-07-07 | 瀚高基础软件股份有限公司 | 一种ddl正确性检测方法、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014201834A1 (en) * | 2013-06-21 | 2014-12-24 | Tencent Technology (Shenzhen) Company Limited | Method and device of matching speech input to text |
WO2017076222A1 (zh) * | 2015-11-06 | 2017-05-11 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
CN107832325A (zh) * | 2017-09-15 | 2018-03-23 | 百度在线网络技术(北京)有限公司 | 一种poi数据校验方法与设备 |
CN108629174A (zh) * | 2018-05-08 | 2018-10-09 | 阿里巴巴集团控股有限公司 | 字符串校验的方法及装置 |
US20200135177A1 (en) * | 2018-10-31 | 2020-04-30 | International Business Machines Corporation | Language phonetic processing based on fine-grained mapping of phonetic components |
CN111445903A (zh) * | 2020-03-27 | 2020-07-24 | 中国工商银行股份有限公司 | 企业名称识别方法及装置 |
CN111898342A (zh) * | 2020-07-31 | 2020-11-06 | 升智信息科技(南京)有限公司 | 一种基于编辑距离的中文发音校验方法 |
-
2021
- 2021-04-22 CN CN202110436969.3A patent/CN113051923B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014201834A1 (en) * | 2013-06-21 | 2014-12-24 | Tencent Technology (Shenzhen) Company Limited | Method and device of matching speech input to text |
WO2017076222A1 (zh) * | 2015-11-06 | 2017-05-11 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
CN107832325A (zh) * | 2017-09-15 | 2018-03-23 | 百度在线网络技术(北京)有限公司 | 一种poi数据校验方法与设备 |
CN108629174A (zh) * | 2018-05-08 | 2018-10-09 | 阿里巴巴集团控股有限公司 | 字符串校验的方法及装置 |
US20200135177A1 (en) * | 2018-10-31 | 2020-04-30 | International Business Machines Corporation | Language phonetic processing based on fine-grained mapping of phonetic components |
CN111445903A (zh) * | 2020-03-27 | 2020-07-24 | 中国工商银行股份有限公司 | 企业名称识别方法及装置 |
CN111898342A (zh) * | 2020-07-31 | 2020-11-06 | 升智信息科技(南京)有限公司 | 一种基于编辑距离的中文发音校验方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113889145A (zh) * | 2021-09-17 | 2022-01-04 | 平安银行股份有限公司 | 语音核验方法、装置、电子设备及介质 |
CN114707500A (zh) * | 2022-03-17 | 2022-07-05 | 深圳前海微众银行股份有限公司 | 一种工作单位名称校验方法及装置 |
CN116401177A (zh) * | 2023-06-09 | 2023-07-07 | 瀚高基础软件股份有限公司 | 一种ddl正确性检测方法、设备及介质 |
CN116401177B (zh) * | 2023-06-09 | 2023-08-15 | 瀚高基础软件股份有限公司 | 一种ddl正确性检测方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113051923B (zh) | 2023-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113051923B (zh) | 数据验证方法、装置、计算机设备和存储介质 | |
WO2021179897A1 (zh) | 实体链接方法及装置 | |
US7421387B2 (en) | Dynamic N-best algorithm to reduce recognition errors | |
US6738741B2 (en) | Segmentation technique increasing the active vocabulary of speech recognizers | |
US8738379B2 (en) | Multitask learning for spoken language understanding | |
CN110428823B (zh) | 口语理解装置和使用该装置的口语理解方法 | |
WO2017127296A1 (en) | Analyzing textual data | |
CN111402862B (zh) | 语音识别方法、装置、存储介质及设备 | |
CN107437417B (zh) | 基于循环神经网络语音识别中语音数据增强方法及装置 | |
US6763331B2 (en) | Sentence recognition apparatus, sentence recognition method, program, and medium | |
CN101785050B (zh) | 语音识别用对照规则学习系统以及语音识别用对照规则学习方法 | |
CN109036471B (zh) | 语音端点检测方法及设备 | |
CN111613212A (zh) | 语音识别方法、系统、电子设备和存储介质 | |
CN111723569A (zh) | 一种事件抽取方法、装置和计算机可读存储介质 | |
CN110517693A (zh) | 语音识别方法、装置、电子设备和计算机可读存储介质 | |
CN112287680B (zh) | 一种问诊信息的实体抽取方法、装置、设备及存储介质 | |
CN110335608B (zh) | 声纹验证方法、装置、设备及存储介质 | |
US9990919B2 (en) | Methods and apparatus for joint stochastic and deterministic dictation formatting | |
CN111428511B (zh) | 一种事件检测方法和装置 | |
CN113380223A (zh) | 多音字消歧方法、装置、系统及存储介质 | |
US20050187767A1 (en) | Dynamic N-best algorithm to reduce speech recognition errors | |
CN113807103A (zh) | 基于人工智能的招聘方法、装置、设备及存储介质 | |
CN115577712B (zh) | 一种文本纠错方法及装置 | |
JP3875357B2 (ja) | 単語・連語分類処理方法、連語抽出方法、単語・連語分類処理装置、音声認識装置、機械翻訳装置、連語抽出装置及び単語・連語記憶媒体 | |
US10402492B1 (en) | Processing natural language grammar |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |