CN111783471A - 自然语言的语义识别方法、装置、设备及存储介质 - Google Patents
自然语言的语义识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111783471A CN111783471A CN202010611678.9A CN202010611678A CN111783471A CN 111783471 A CN111783471 A CN 111783471A CN 202010611678 A CN202010611678 A CN 202010611678A CN 111783471 A CN111783471 A CN 111783471A
- Authority
- CN
- China
- Prior art keywords
- data
- neural network
- network model
- target
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本申请实施例公开了一种自然语言的语义识别方法、装置、设备及存储介质,涉及计算机信息处理技术领域。该方法包括:接收目标初始数据;调用第一神经网络模型;对目标初始数据进行数据纠错处理,获取第一文本数据;调用第二神经网络模型,对第一文本数据进行文本断句处理,获取第二文本数据;调用第三神经网络模型,对第二文本数据进行意图识别及实体抽取,获取目标实体和目标意图。本申请还涉及区块链技术,将目标实体和目标意图存储至区块链网络。所述方法应用多种类型的模型共同协作处理自然语言进行语义识别,通过数据纠错提升了模型的适应能力,实现了多意图区分和提高了模型的运行效率及准确性,使用户在人机交互中能获得更好的体验。
Description
技术领域
本申请涉及计算机信息处理技术领域,特别是一种自然语言的语义识别方法、装置、设备及存储介质。
背景技术
近年来,随着计算机运算能力的提高和人工智能核心算法的突破性发展,人工智能领域进展迅速。而自然语言处理被誉为“人工智能皇冠上的明珠,是计算机科学领域与人工智能领域中的一个重要方向,有着广阔的应用空间。
自然语言处理是计算机科学、语言学和机器学习的交叉点,它关注计算机与人类之间使用自然语言中的沟通交流,致力于让计算机能够理解和生成人类语言。自然语言处理技术主要应用于机器翻译、智能问答、语音助手和文本过滤等多方面,已经开始对各行各业产生巨大的影响。金融业务领域存在较多的文本阅读和客户问答场景,且与数据有高度相关性,成为自然语言处理最先应用的行业之一。
现有智能问答中自然语言理解方法多为系统按顺序对用户自然语言输入进行意图分类、实体抽取,再通过业务逻辑返回自然语言理解结果。而在实际应用场景中,经常存在用户输入存在错别字、语音识别不准确、业务专有词汇不断增加、一句话内存在无标点区分的多意图等等问题,使问答系统产生错误,无法实现客户需求。
发明内容
本申请实施例所要解决的技术问题是,提供一种自然语言的语义识别方法、装置、设备及存储介质,提升模型对语义识别的适应能力,并提高多意图区分和实体抽取的效率及准确性。
为了解决上述技术问题,本申请实施例提供一种自然语言的语义识别方法,采用了如下所述的技术方案:
一种自然语言的语义识别方法,包括:
接收用户输入的待识别的目标初始数据;
触发缺省的语义识别指令,并响应于所述语义识别指令调用预设的第一神经网络模型;
通过所述第一神经网络模型对所述目标初始数据进行数据纠错处理,以获取对应于所述目标初始数据的第一文本数据;
调用预设的第二神经网络模型,通过所述第二神经网络模型对所述第一文本数据进行文本断句处理,以获取包含分词序列标注的第二文本数据;
调用预设的第三神经网络模型,通过所述第三神经网络模型对所述第二文本数据进行意图识别及实体抽取,以获取所述第二文本数据包含的每种用户意图中相互匹配的目标实体和目标意图。
为了解决上述技术问题,本申请实施例还提供一种自然语言的语义识别装置,采用了如下所述的技术方案:
一种自然语言的语义识别装置,包括:
数据接收模块,用于接收用户输入的待识别的目标初始数据;
指令触发模块,用于触发缺省的语义识别指令,并响应于所述语义识别指令调用预设的第一神经网络模型;
数据纠错模块,用于通过所述第一神经网络模型对所述目标初始数据进行数据纠错处理,以获取对应于所述目标初始数据的第一文本数据;
序列标注模块,用于调用预设的第二神经网络模型,通过所述第二神经网络模型对所述第一文本数据进行文本断句处理,以获取包含分词序列标注的第二文本数据;
数据解析模块,用于调用预设的第三神经网络模型,通过所述第三神经网络模型对所述第二文本数据进行意图识别及实体抽取,以获取所述第二文本数据包含的每种用户意图中相互匹配的目标实体和目标意图。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项技术方案所述的自然语言的语义识别方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项技术方案所述的自然语言的语义识别方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请实施例公开了一种自然语言的语义识别方法、装置、设备及存储介质,本申请实施例所述的自然语言的语义识别方法,接收用户输入的待识别的目标初始数据后;便触发缺省的语义识别指令,并响应于语义识别指令调用预设的第一神经网络模型;然后通过第一神经网络模型对目标初始数据进行数据纠错处理,以获取第一文本数据;调用预设的第二神经网络模型后,通过第二神经网络模型对第一文本数据进行文本断句处理,以获取包含分词序列标注的第二文本数据;再调用预设的第三神经网络模型,通过第三神经网络模型对第二文本数据进行意图识别及实体抽取,以获取第二文本数据包含的每种用户意图中相互匹配的目标实体和目标意图。所述方法应用多种类型的神经网络模型共同协作处理自然语言进行语义识别,通过对输入数据进行数据纠错提升了模型的适应能力,对输入数据进行断句实现了多意图区分,并通过意图识别和实体抽取提高了模型的运行效率及准确性,使用户在进行人机交互的过程中能获得更好的使用体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例可以应用于其中的示例性系统架构图;
图2为本申请实施例中所述自然语言的语义识别方法的一个实施例的流程图;
图3为本申请实施例中所述自然语言的语义识别装置的一个实施例的结构示意图;
图4为本申请实施例中计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”、“包含”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。在本申请的权利要求书、说明书以及说明书附图中的术语,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来,而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实际的关系或者顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其他实施例相结合。
为了使本技术领域的人员更好地理解本申请的方案,下面将结合本申请实施例中的相关附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括第一终端设备101、第二终端设备102、第三终端设备103、网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用第一终端设备101、第二终端设备102和第三终端设备103通过网络104与服务器105交互,以接收或发送消息等。第一终端设备101、第二终端设备102和第三终端设备103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
第一终端设备101、第二终端设备102和第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对第一终端设备101、第一终端设备102和第三终端设备103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的自然语言的语义识别方法一般由服务器/终端设备执行,相应地,自然语言的语义识别装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了本申请实施例中所述自然语言的语义识别方法的一个实施例的流程图。所述自然语言的语义识别方法,包括以下步骤:
步骤201:接收用户输入的待识别的目标初始数据。
现有的智能问答等人机交互场景中,用户向计算机输入自然语言后,计算机服务器通过人工智能系统对其输入进行自动识别和信息提取等处理,在正确理解该自然语言输入所表达的语义后以此作出响应,从而完成与用户的人机交互。
本申请中,将用户输入服务器的自然语言,视为待进行语义识别处理的目标初始数据,在接收到用户输入后,再执行进一步的数据处理操作。
在本申请的一些实施例中,在步骤201之后,所述自然语言的语义识别方法还包括:
解析所述目标初始数据,标注出其中的非文本数据;
将所述目标初始数据中包含的非文本数据转化为对应的文本数据。
在有些交互场景中,用户可能结合语音或图片等数据形式进行自然语言输入,而对于这类非文本数据,服务器需要将其转化为文本数据后才能进一步处理以理解其语义。
如对于语音类的非文本数据,需要通过语音识别技术将其转化为对应的文本数据;对于图片类的非文本数据,则需要通过OCR(Optical Character Recognition,光学字符识别)技术将其转化为对应的文本数据。
步骤202:触发缺省的语义识别指令,并响应于所述语义识别指令调用预设的第一神经网络模型。
本申请中的计算机人工智能系统,为人机交互场景预先设置了自动触发的自然语言处理机制。在人机交互场景中,根据预设的自然语言处理机制,服务器接收到用户输入的目标初始数据后,便自动触发缺省的语义识别指令,以首先调用预设的用于进行数据纠错处理的第一神经网络模型。
在本申请实施例中,所述自然语言的语义识别方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收语义识别指令。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi(Wireless-Fidelity)连接、蓝牙连接、WiMAX(Worldwide Interoperabilityfor Microwave Access)连接、Zigbee(低功耗局域网协议,又称紫峰协议)连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
步骤203:通过所述第一神经网络模型对所述目标初始数据进行数据纠错处理,以获取对应于所述目标初始数据的第一文本数据。
用户输入的数据,经常会出现错别字、谐音字等问题,如此会影响人工智能系统对其表达的语义的识别,因此对于初步输入的数据,还需要进行数据纠错处理,将输入数据中的错误进行纠正。例如预期的正确输入为:“修改被保人姓名为张三,购买自燃险10万”,而用户实际输入为“修改被保人姓名为张三购买自然险10万”,此时“自燃险”被错误输入成为“自然险”,无法匹配上相应的险种,需要经过数据纠错处理将“自燃险”更正为“自然险”。
第一神经网络模型预先经过大量的业务数据训练,对领域内的词汇具有较高的理解匹配能力,其可以通过拼音纠正等方法,将输入的目标初始数据中可能存在的错误,如错字等进行纠正。
在本申请的一些实施例中,所述步骤203包括:
获取所述目标初始数据对应的拼音序列,并调用数据库中预存的语料库;
将所述拼音序列和所述目标初始数据输入所述第一神经网络模型;
使所述第一神经网络模型根据所述拼音序列在语料库中进行匹配,并将匹配结果与所述目标初始数据进行比对后,输出比对结果中与所述目标初始数据相似度最高的文本数据作为所述第一文本数据。
其中,所述第一神经网络模型为基于拼音的端对端的深度生成模型,其对目标初始数据进行数据纠错处理时,首先需要获取到目标初始数据的拼音序列。在一种具体实施方式中,可以基于词典库匹配与目标初始数据相符的拼音序列。
服务器的数据库中,会预先根据从网络上大规模获取到的数据内容,生成能覆盖大量人机交互场景的语料库,如针对不同的业务类型,也可以设置不同的语料库,便于区分管理。
第一神经网络模型通过输入的拼音序列在语料库中进行匹配比较,找出语料库中与拼音序列吻合的语料后,将语料与目标初始数据进行比对,若检测出目标初始数据中存在错字,便根据匹配到的语料对其进行错字纠正。
在本申请的另一些实施例中,步骤202中所述响应于所述语义识别指令调用预设的第一神经网络模型的步骤之前,所述自然语言的语义识别方法还包括:
确认所述目标初始数据所属的目标业务;
获取所述目标业务的真实训练数据;
通过所述真实训练数据对所述第一神经网络模型进行训练。
所述步骤203包括:
获取所述目标初始数据对应的拼音序列;
将所述拼音序列输入所述第一神经网络模型,以通过所述第一神经网络模型输出对应于所述拼音序列的第一文本数据。
该部分实施例中,所述第一神经网络模型用于根据目标初始数据对应的拼音序列,直接输出与拼音序列匹配的文本数据,该文本数据即视为对目标初始序列纠错后生成的数据。其中,第一神经网络模型需要预先经过目标初始序列所属的业务领域中的真实数据进行训练,以此提升其对目标初始序列对应的拼音序列的识别理解能力。而真实训练数据是在真实的生产环境中用户输入得到的业务数据,并非网上获取的数据,和实际场景一致。因此对第一神经网络模型进行训练之前,需要确认目标初始数据所属的目标业务后,再以此获取目标业务中的真实训练数据对第一神经网络模型进行训练。
在上述实施例进一步的具体实施方式中,所述获取所述目标初始数据对应的拼音序列的步骤包括:
提取出所述目标初始数据中的目标规则数据;
基于预设的目标转换规则将所述目标规则数据转换后合并至所述第一文本数据中。
对于目标初始序列中的如数字、字母、符号等特定形式的数据,需要区别于拼音序列的处理方式,为其预设特定的转换规则后,对该部分数据基于该转换规则进行数据转换,再与经拼音序列纠错后的数据依据初始的组合顺序合并后共同记为第一文本数据,以此补足模型对数据无法完全转化为拼音序列时纠错能力的不足。
步骤204:调用预设的第二神经网络模型,通过所述第二神经网络模型对所述第一文本数据进行文本断句处理,以获取包含分词序列标注的第二文本数据。
在对自然语言进行处理的过程中,需要将文本数据转化为以语义向量的形式表示的文本序列,然后对该文本序列通过一些具有特定含义的标签进行序列标注。其中,文本分词、词性标注、实体识别和信息抽取均属于序列标注的内容。
用户输入的自然语言数据,可能包含了多个用户意图,因此为了准确的理解输入整个的目标初始数据的语义,首先需要对目标初始数据转化为的第一文本数据进行断句,对其通过分词序列标注进行注释,以将每种用户意图以标签标注的形式进行区分,方便后续识别出其中包含的若干种用户意图。
在本申请的一些实施例中,采用具有深度语义提取层和crf(conditional randomfield,条件随机场)层的模型作为所述第二神经网络模型。如此可以在提取第一文本数据表示的语义向量后在理解其整个句子的层面上进行文本的断句切分,且文本断句过程中在有标点或者无标点的条件下都可以成功将具有多意图的句子切分开,方便对每个意图语句进行分析处理,实现多意图识别能力。
普通的规则模型一般只能针对符号、空格或关键词等进行断句操作,而无法在理解语句意义的条件下根据不同的语义场景进行断句。例如:“三者险和涉水险,我不要了。”如果只根据标点符号进行切分,则会产生错误,因为这两句话合起来才能表达完整的语义。而“购买自燃险不购买三者险”这句话需要断开成“购买自燃险”和“不购买三者险”才能执行两个操作,完成用户意图识别,这些情形下规则模型切分效果是无法和理解语义的深度模型相比的。
步骤205:调用预设的第三神经网络模型,通过所述第三神经网络模型对所述第二文本数据进行意图识别及实体抽取,以获取所述第二文本数据包含的每种用户意图中相互匹配的目标实体和目标意图。
实体是指具有可描述意义的单词或短语,通常可以是人名、地名、组织机构名、产品名称,或者在某个领域内具有一定含义的内容,比如医学领域内疾病、药物、生物体名称,或者法律学涉及到的专有词汇等。而自然语言输入中,每一种用户意图都会包括若干个实体,对每个实体都具有所表达的相关联的操作内容,该操作内容即可视为对该实体的意图。
本申请中,通过将第二文本数据输入调用的第三神经网络模型,对第二文本数据进行意图识别和实体抽取,根据步骤S204中的分词序列标注区分其中的每种用户意图,并分别抽取出相关联的目标实体和目标意图。需要强调的是,为进一步保证上述目标实体和目标意图的私密和安全性,上述目标实体和目标意图还可以存储于一区块链的节点中。
具体地,如对于上述实施例中提及的自然语言输入:“修改被保人姓名为张三,购买自燃险10万”。其中即包含两种用户意图,第一种用户意图为“修改被保人姓名为张三”,第二种用户意图为“购买自燃险10万”。第一种用户意图中,目标实体为“张三”,目标意图为“修改被保人姓名(为)”;第二种用户意图中,目标实体为“自燃险10万”,目标意图为“购买(险种)”。
在本申请的一些实施例中,步骤205中所述通过所述第三神经网络模型对所述第二文本数据进行意图识别及实体抽取的步骤包括:
提提取所述第二文本数据中包含的若干种用户意图;
对所述若干种用户意图进行分类,以划分为涉及深度实体抽取的第一意图类型和涉及规则实体抽取的第二意图类型。
第三神经网络模型包括用于对文本数据进行意图分类的神经网络模型,该神经网络模型使用通过海量文本数据进行训练的bert模型作为初始模型,并基于标注过意图的业务语句对初始模型进行微调训练完成迁移学习后,使其能对本申请实施例中应用的常用业务交互场景中语句的理解能力增强,将该初始模型转化为更适应本提案所需的业务交互场景的神经网络模型。
在一些具体实施方式中,进行实体抽取时需要通过第三神经网络模型中设置的两种实体抽取模型共同进行处理。一种为基于规则进行实体抽取的模型,用于对具有特定逻辑的数据规律的文本内容进行实体抽取,如电话号码、身份证号码等;另一种为基于深度学习进行实体抽取的模型,用于对没有特定规律的文本内容进行实体抽取,如姓名、地址等。
因此在进行实体抽取前,还需要对用户意图的类型进行二分类,完成对用户意图的分流。
进一步的,所述对所述若干种用户意图进行分类的步骤之后,所述自然语言的语义识别方法包括:
通过第三神经网络模型中设置的深度实体抽取模型对所述第一意图类型的用户意图进行实体抽取,通过第三神经网络模型中设置的规则实体抽取模型对所述第二意图类型的用户意图进行实体抽取。
深度实体抽取模型和规则实体抽取模型中,规则实体抽取模型对于特定规律的实体提取具有准确性高、效率高等特点,所以对于身份证、手机号、车牌号等这类具有明显逻辑规律的实体通过规则方法提取,而姓名、地址等没有规律的实体通过深度实体抽取模型进行实体提取,可以得到泛化性更好的结果。
但由于深度实体模型需要计算资源较大,因此对用户意图进行分类后再将判断为需要采用深度实体模型进行实体抽取的部分用户意图输入深度实体抽取模型,由此使得尽量少的数据流经深度部分,提高了运行效率。
在上述实施例的步骤中对第二文本数据中的用户意图进行分流归类后,将涉及深度实体抽取的第一意图类型的用户意图数据输入深度实体抽取模型,其它的(即涉及规则实体抽取的第二意图类型的用户意图数据)输入规则实体抽取模型,以提高模型运行效率的同时保证模型识别的准确性。
本申请实施例所述的自然语言的语义识别方法,应用多种类型的神经网络模型共同协作处理自然语言进行语义识别,通过对输入数据进行数据纠错提升了模型的适应能力,对输入数据进行断句实现了多意图区分,并通过意图识别和实体抽取提高了模型的运行效率及准确性,使用户在进行人机交互的过程中能获得更好的使用体验。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,图3示出了为本申请实施例中所述自然语言的语义识别装置的一个实施例的结构示意图。作为对上述图2所示方法的实现,本申请提供了一种自然语言的语义识别装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的自然语言的语义识别装置包括:
数据接收模块301;用于接收用户输入的待识别的目标初始数据。
指令触发模块302;用于触发缺省的语义识别指令,并响应于所述语义识别指令调用预设的第一神经网络模型。
数据纠错模块303;用于通过所述第一神经网络模型对所述目标初始数据进行数据纠错处理,以获取对应于所述目标初始数据的第一文本数据。
序列标注模块304;用于调用预设的第二神经网络模型,通过所述第二神经网络模型对所述第一文本数据进行文本断句处理,以获取包含分词序列标注的第二文本数据。
数据解析模块305;用于调用预设的第三神经网络模型,通过所述第三神经网络模型对所述第二文本数据进行意图识别及实体抽取,以获取所述第二文本数据包含的每种用户意图中相互匹配的目标实体和目标意图。需要强调的是,为进一步保证上述目标实体和目标意图的私密和安全性,上述目标实体和目标意图还可以存储于一区块链的节点中。
在本申请的一些实施例中,所述自然语言的语义识别装置还包括:数据转换模块。所述数据转换模块用于解析所述目标初始数据,标注出其中的非文本数据;将所述目标初始数据中包含的非文本数据转化为对应的文本数据。
在本申请的一些实施例中,所述数据纠错模块303用于获取所述目标初始数据对应的拼音序列,并调用数据库中预存的语料库;将所述拼音序列和所述目标初始数据输入所述第一神经网络模型;使所述第一神经网络模型根据所述拼音序列在语料库中进行匹配,并将匹配结果与所述目标初始数据进行比对后,输出比对结果中与所述目标初始数据相似度最高的文本数据作为所述第一文本数据。
在本申请的另一些实施例中,所述自然语言的语义识别装置还包括:模型训练模块。在所述指令触发模块302响应于所述语义识别指令调用预设的第一神经网络模型之前,所述模型训练模块用于确认所述目标初始数据所属的目标业务;获取所述目标业务的真实训练数据;通过所述真实训练数据对所述第一神经网络模型进行训练。所述数据纠错模块303用于获取所述目标初始数据对应的拼音序列;将所述拼音序列输入所述第一神经网络模型,以通过所述第一神经网络模型输出对应于所述拼音序列的第一文本数据。
在上述实施例进一步的具体实施方式中,所述数据纠错模块303还包括:规则数据转换子模块。所述规则数据转换子模块用于提取出所述目标初始数据中的目标规则数据;基于预设的目标转换规则将所述目标规则数据转换后合并至所述第一文本数据中。
在本申请的一些实施例中,所述数据解析模块305包括:意图分类子模块。所述意图分类子模块用于提取所述第二文本数据中包含的若干种用户意图;对所述若干种用户意图进行分类,以划分为涉及深度实体抽取的第一意图类型和涉及规则实体抽取的第二意图类型。
进一步的,所述数据解析模块305还包括:分类抽取子模块。所述分类抽取子模块用于通过第三神经网络模型中设置的深度实体抽取模型对所述第一意图类型的用户意图进行实体抽取,通过第三神经网络模型中设置的规则实体抽取模型对所述第二意图类型的用户意图进行实体抽取。
本申请实施例所述的自然语言的语义识别装置,应用多种类型的神经网络模型共同协作处理自然语言进行语义识别,通过对输入数据进行数据纠错提升了模型的适应能力,对输入数据进行断句实现了多意图区分,并通过意图识别和实体抽取提高了模型的运行效率及准确性,使用户在进行人机交互的过程中能获得更好的使用体验。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是,图中仅示出了具有组件61-63的计算机设备6,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器61至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器61可以是所述计算机设备6的内部存储单元,例如该计算机设备6的硬盘或内存。在另一些实施例中,所述存储器61也可以是所述计算机设备6的外部存储设备,例如该计算机设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中,所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件,例如自然语言的语义识别方法的程序代码等。此外,所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器62在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中,所述处理器62用于运行所述存储器61中存储的程序代码或者处理数据,例如运行所述自然语言的语义识别方法的程序代码。
所述网络接口63可包括无线网络接口或有线网络接口,该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。
本申请实施例所述的计算机设备,通过处理器执行存储器中存储的计算机程序进行数据推送的功能测试时,无需通过前端操作创建任务,能够实现对大批量自然语言的语义识别要求,并减少测试时间的消耗,提升功能测试的效率,在进行数据推送测试的过程中还能方便地进行压力测试,在通过日志判断数据的推送结果时还能方便分析测试时出现的问题,以及对测试过程中出现的问题进行定位。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有自然语言的语义识别程序,所述自然语言的语义识别程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的自然语言的语义识别方法的步骤。
需要强调的是,为进一步保证上述目标实体和目标意图的私密和安全性,上述目标实体和目标意图还可以存储于一区块链的节点中。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
在本申请所提供的上述实施例中,应该理解到,所揭露的装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述模块或组件可以是或者也可以不是物理上分开的,作为模块或组件显示的部件可以是或者也可以不是物理模块,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块或组件来实现本实施例方案的目的。
本申请不限于上述实施方式,以上所述是本申请的优选实施方式,该实施例仅用于说明本申请而不用于限制本申请的范围,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,其依然可以对前述各具体实施方式所记载的技术方案进行若干改进和修饰,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理应视为包括在本申请的保护范围之内。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,以及凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
Claims (10)
1.一种自然语言的语义识别方法,其特征在于,包括:
接收用户输入的待识别的目标初始数据;
触发缺省的语义识别指令,并响应于所述语义识别指令调用预设的第一神经网络模型;
通过所述第一神经网络模型对所述目标初始数据进行数据纠错处理,以获取对应于所述目标初始数据的第一文本数据;
调用预设的第二神经网络模型,通过所述第二神经网络模型对所述第一文本数据进行文本断句处理,以获取包含分词序列标注的第二文本数据;
调用预设的第三神经网络模型,通过所述第三神经网络模型对所述第二文本数据进行意图识别及实体抽取,以获取所述第二文本数据包含的每种用户意图中相互匹配的目标实体和目标意图。
2.根据权利要求1所述的自然语言的语义识别方法,其特征在于,所述接收用户输入的待识别的目标初始数据的步骤之后,所述方法还包括:
解析所述目标初始数据,标注出其中的非文本数据;
将所述目标初始数据中包含的非文本数据转化为对应的文本数据。
3.根据权利要求1所述的自然语言的语义识别方法,其特征在于,所述通过所述第一神经网络模型对所述目标初始数据进行数据纠错处理,以获取对应于所述目标初始数据的第一文本数据的步骤包括:
获取所述目标初始数据对应的拼音序列,并调用数据库中预存的语料库;
将所述拼音序列和所述目标初始数据输入所述第一神经网络模型;
使所述第一神经网络模型根据所述拼音序列在语料库中进行匹配,并将匹配结果与所述目标初始数据进行比对后,输出比对结果中与所述目标初始数据相似度最高的文本数据作为所述第一文本数据。
4.根据权利要求1所述的自然语言的语义识别方法,其特征在于,所述响应于所述语义识别指令调用预设的第一神经网络模型的步骤之前,所述方法还包括:
确认所述目标初始数据所属的目标业务;
获取所述目标业务的真实训练数据;
通过所述真实训练数据对所述第一神经网络模型进行训练;
所述通过所述第一神经网络模型对所述目标初始数据进行数据纠错处理,以获取对应于所述目标初始数据的第一文本数据的步骤包括:
获取所述目标初始数据对应的拼音序列;
将所述拼音序列输入所述第一神经网络模型,以通过所述第一神经网络模型输出对应于所述拼音序列的第一文本数据。
5.根据权利要求3或4所述的自然语言的语义识别方法,其特征在于,所述获取所述目标初始数据对应的拼音序列的步骤包括:
提取出所述目标初始数据中的目标规则数据;
基于预设的目标转换规则将所述目标规则数据转换后合并至所述第一文本数据中。
6.根据权利要求1所述的自然语言的语义识别方法,其特征在于,所述通过所述第三神经网络模型对所述第二文本数据进行意图识别及实体抽取的步骤包括:
提取所述第二文本数据中包含的若干种用户意图;
对所述若干种用户意图进行分类,以划分为涉及深度实体抽取的第一意图类型和涉及规则实体抽取的第二意图类型。
7.根据权利要求6所述的自然语言的语义识别方法,其特征在于,所述对所述若干种用户意图进行分类的步骤之后,所述方法包括:
通过第三神经网络模型中设置的深度实体抽取模型对所述第一意图类型的用户意图进行实体抽取,通过第三神经网络模型中设置的规则实体抽取模型对所述第二意图类型的用户意图进行实体抽取。
8.一种自然语言的语义识别装置,其特征在于,包括:
数据接收模块,用于接收用户输入的待识别的目标初始数据;
指令触发模块,用于触发缺省的语义识别指令,并响应于所述语义识别指令调用预设的第一神经网络模型;
数据纠错模块,用于通过所述第一神经网络模型对所述目标初始数据进行数据纠错处理,以获取对应于所述目标初始数据的第一文本数据;
序列标注模块,用于调用预设的第二神经网络模型,通过所述第二神经网络模型对所述第一文本数据进行文本断句处理,以获取包含分词序列标注的第二文本数据;
数据解析模块,用于调用预设的第三神经网络模型,通过所述第三神经网络模型对所述第二文本数据进行意图识别及实体抽取,以获取所述第二文本数据包含的每种用户意图中相互匹配的目标实体和目标意图。
9.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述的自然语言的语义识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任意一项所述的自然语言的语义识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010611678.9A CN111783471A (zh) | 2020-06-29 | 2020-06-29 | 自然语言的语义识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010611678.9A CN111783471A (zh) | 2020-06-29 | 2020-06-29 | 自然语言的语义识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111783471A true CN111783471A (zh) | 2020-10-16 |
Family
ID=72761291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010611678.9A Pending CN111783471A (zh) | 2020-06-29 | 2020-06-29 | 自然语言的语义识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783471A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128230A (zh) * | 2021-04-22 | 2021-07-16 | 北京百度网讯科技有限公司 | 实体抽取方法、装置、电子设备及计算机存储介质 |
CN113158692A (zh) * | 2021-04-22 | 2021-07-23 | 中国平安财产保险股份有限公司 | 基于语义识别的多意图处理方法、系统、设备及存储介质 |
CN113284499A (zh) * | 2021-05-24 | 2021-08-20 | 湖北亿咖通科技有限公司 | 一种语音指令识别方法及电子设备 |
CN113571041A (zh) * | 2021-07-21 | 2021-10-29 | 北京淇瑀信息科技有限公司 | 语音识别文本处理方法、装置和电子设备 |
CN114302227A (zh) * | 2021-12-28 | 2022-04-08 | 北京智美互联科技有限公司 | 基于容器采集的网络视频采集与解析的方法和系统 |
CN114302227B (zh) * | 2021-12-28 | 2024-04-26 | 北京国瑞数智技术有限公司 | 基于容器采集的网络视频采集与解析的方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110041A (zh) * | 2019-03-15 | 2019-08-09 | 平安科技(深圳)有限公司 | 错词纠正方法、装置、计算机装置及存储介质 |
CN110765763A (zh) * | 2019-09-24 | 2020-02-07 | 金蝶软件(中国)有限公司 | 语音识别文本的纠错方法、装置、计算机设备和存储介质 |
CN111125331A (zh) * | 2019-12-20 | 2020-05-08 | 京东方科技集团股份有限公司 | 语义识别方法、装置、电子设备及计算机可读存储介质 |
-
2020
- 2020-06-29 CN CN202010611678.9A patent/CN111783471A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110041A (zh) * | 2019-03-15 | 2019-08-09 | 平安科技(深圳)有限公司 | 错词纠正方法、装置、计算机装置及存储介质 |
CN110765763A (zh) * | 2019-09-24 | 2020-02-07 | 金蝶软件(中国)有限公司 | 语音识别文本的纠错方法、装置、计算机设备和存储介质 |
CN111125331A (zh) * | 2019-12-20 | 2020-05-08 | 京东方科技集团股份有限公司 | 语义识别方法、装置、电子设备及计算机可读存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128230A (zh) * | 2021-04-22 | 2021-07-16 | 北京百度网讯科技有限公司 | 实体抽取方法、装置、电子设备及计算机存储介质 |
CN113158692A (zh) * | 2021-04-22 | 2021-07-23 | 中国平安财产保险股份有限公司 | 基于语义识别的多意图处理方法、系统、设备及存储介质 |
CN113158692B (zh) * | 2021-04-22 | 2023-09-12 | 中国平安财产保险股份有限公司 | 基于语义识别的多意图处理方法、系统、设备及存储介质 |
CN113284499A (zh) * | 2021-05-24 | 2021-08-20 | 湖北亿咖通科技有限公司 | 一种语音指令识别方法及电子设备 |
CN113571041A (zh) * | 2021-07-21 | 2021-10-29 | 北京淇瑀信息科技有限公司 | 语音识别文本处理方法、装置和电子设备 |
CN114302227A (zh) * | 2021-12-28 | 2022-04-08 | 北京智美互联科技有限公司 | 基于容器采集的网络视频采集与解析的方法和系统 |
CN114302227B (zh) * | 2021-12-28 | 2024-04-26 | 北京国瑞数智技术有限公司 | 基于容器采集的网络视频采集与解析的方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111897970A (zh) | 基于知识图谱的文本比对方法、装置、设备及存储介质 | |
CN110909137A (zh) | 基于人机交互的信息推送方法、装置和计算机设备 | |
CN111783471A (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN112215008B (zh) | 基于语义理解的实体识别方法、装置、计算机设备和介质 | |
CN112101041B (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
WO2021135469A1 (zh) | 基于机器学习的信息抽取方法、装置、计算机设备及介质 | |
CN112287069B (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN112632278A (zh) | 一种基于多标签分类的标注方法、装置、设备及存储介质 | |
CN110427453B (zh) | 数据的相似度计算方法、装置、计算机设备及存储介质 | |
CN112328761A (zh) | 一种意图标签设置方法、装置、计算机设备及存储介质 | |
CN111695338A (zh) | 基于人工智能的面试内容精炼方法、装置、设备及介质 | |
CN114298035A (zh) | 一种文本识别脱敏方法及其系统 | |
CN112084752A (zh) | 基于自然语言的语句标注方法、装置、设备及存储介质 | |
CN111581972A (zh) | 文本中症状和部位对应关系识别方法、装置、设备及介质 | |
CN114547315A (zh) | 一种案件分类预测方法、装置、计算机设备及存储介质 | |
CN113987125A (zh) | 基于神经网络的文本结构化信息提取方法、及其相关设备 | |
CN112084779A (zh) | 用于语义识别的实体获取方法、装置、设备及存储介质 | |
CN115438149A (zh) | 一种端到端模型训练方法、装置、计算机设备及存储介质 | |
CN115730597A (zh) | 多级语义意图识别方法及其相关设备 | |
CN111191446A (zh) | 交互信息处理方法、装置、计算机设备和存储介质 | |
CN115730603A (zh) | 基于人工智能的信息提取方法、装置、设备及存储介质 | |
CN115169370A (zh) | 语料数据增强方法、装置、计算机设备及介质 | |
CN114818718A (zh) | 合同文本识别方法及装置 | |
CN114067362A (zh) | 基于神经网络模型的手语识别方法、装置、设备及介质 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |