CN111723559B - 一种实时信息抽取方法及装置 - Google Patents
一种实时信息抽取方法及装置 Download PDFInfo
- Publication number
- CN111723559B CN111723559B CN202010566398.0A CN202010566398A CN111723559B CN 111723559 B CN111723559 B CN 111723559B CN 202010566398 A CN202010566398 A CN 202010566398A CN 111723559 B CN111723559 B CN 111723559B
- Authority
- CN
- China
- Prior art keywords
- current
- intention
- entity
- questioner
- spoken text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种实时信息抽取方法,包括:将实时接收的提问者的口语文本和回答者的口语文本同时输入至意图理解服务和实体解析服务进行处理;将当前意图和当前实体的名称和属性值同时输入至表格填充服务中;输出当前的目标实体。可以为口语对话场景的信息抽取任务特殊定制,迎合了提问者和回答者一问一答的文本输入模式,能将前一轮提问者的问题意图保存至数据库,用户回答时可以取出数据库里的问题意图,再将问题意图和候选实体进行匹配和消歧,并将每一轮用户回答的实体信息实时的输出,使得提问者可以实时的查看目标实体的结果,且无需手动录入干预,省时省力。
Description
技术领域
本发明属于信息抽取技术领域,尤其涉及一种实时信息抽取方法及装置。
背景技术
在口语对话场景下,如,在用户信息录入时,客服人员需针对所要录入的信息对用户进行提问,用户回答后,客服人员再将信息录入到系统。
传统的基于段落、篇章文本的实体信息抽取系统,必须等到客服人员与用户问答交互完成后,一次性将段落文本或篇章文本作为系统的输入,系统从中抽取用户所需的目标实体信息,最后以格式化的形式输出出来。
此时,若中间某个实体抽取错误或某个实体信息缺失,客服人员是无法及时修改和填补实体结果的。
发明内容
本发明实施例提供一种实时信息抽取方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种实时信息抽取方法,包括:将实时接收的提问者的口语文本和回答者的口语文本同时输入至意图理解服务和实体解析服务进行处理,其中,所述意图理解服务用于对提问者的口语文本进行意图分类并输出提问者的口语文本对应的当前意图,所述实体解析服务用于抽取所述提问者的口语文本和所述回答者的口语文本中的实体并输出当前实体的名称和属性值;将所述当前意图和所述当前实体的名称和属性值同时输入至表格填充服务中,其中,所述表格填充服务用于基于预定义的目标实体对所述当前意图和所述当前实体的名称和属性值进行关联处理得到最终的目标实体,其中,所述预定义的目标实体为预先定义的待采集的信息的名称和属性值对应的表格;输出当前的目标实体。
第二方面,本发明实施例提供一种实时信息抽取装置,包括:意图理解模块以及实体解析模块,配置为将实时接收的提问者的口语文本和回答者的口语文本同时输入至意图理解服务和实体解析服务进行处理,其中,所述意图理解服务用于对提问者的口语文本进行意图分类并输出提问者的口语文本对应的当前意图,所述实体解析服务用于抽取所述提问者的口语文本和所述回答者的口语文本中的实体并输出当前实体的名称和属性值;表格填充模块,配置为将所述当前意图和所述当前实体的名称和属性值同时输入至表格填充服务中,其中,所述表格填充服务用于基于预定义的目标实体对所述当前意图和所述当前实体的名称和属性值进行关联处理得到最终的目标实体,其中,所述预定义的目标实体为预先定义的待采集的信息的名称和属性值对应的表格;输出模块,配置为输出当前的目标实体。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的多意图识别训练或使用方法的步骤。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的多意图识别训练或使用方法的步骤。
本申请的方法和装置可以为口语对话场景的信息抽取任务特殊定制,迎合了提问者和回答者一问一答的文本输入模式,能将前一轮提问者的问题意图保存至数据库,用户回答时可以取出数据库里的问题意图,再将问题意图和候选实体进行匹配和消歧,并将每一轮用户回答的实体信息实时的输出,使得提问者可以实时的查看目标实体的结果,且无需手动录入干预,省时省力,在中间有实体缺失或错误时,提问者可以实时对用户重新提问来修改结果,解决了需要在交互完成后,才能将所有文本一次性作为输入,做不到实时处理的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种识别实时信息抽取方法的流程图;
图2为本发明一实施例提供的另一种识别实时信息抽取方法的流程图;
图3为本发明一实施例提供的再一种识别实时信息抽取方法的流程图;
图4为本发明一实施例提供的一个具体实施例的实时信息抽取方法的流程图;
图5为本发明一实施例提供的另一个具体实施例的实时信息抽取方法的流程图;
图6为本发明一实施例提供的一种识别实时信息抽取方法的工作流程框图;
图7为本发明一实施例提供的一种识别实时信息抽取装置的框图;
图8是本发明一实施例提供的电子设备的结构示意图;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本申请的识别实时信息抽取方法一实施例的流程图,本实施例的识别实时信息抽取方法可以适用于具备通讯或者实时语音对话功能的终端、如智能手机、平板、电脑等。
如图1所示,在步骤101中,将实时接收的提问者的口语文本和回答者的口语文本同时输入至意图理解服务和实体解析服务进行处理;
在步骤102中,将当前意图和当前实体的名称和属性值同时输入至表格填充服务中;
在步骤103中,输出当前的目标实体。
在本实施例中,对于步骤101,实时信息抽取装置在接收到提问者的口语文本和回答者的口语文本之后,对提问者的口语文本和回答者的口语文本进行意图理解服务和实体解析服务处理。其中,意图理解服务用于对提问者的口语文本进行意图分类并输出提问者的口语文本对应的当前意图,实体解析服务用于抽取提问者的口语文本和回答者的口语文本中的实体并输出当前实体的名称和属性值。之后,对于步骤102,实时信息抽取装置将在提问者的口语文本和回答者的口语文本中抽取的当前意图和当前实体的名称和属性值同时输入到表格填充服务中,使得获取当前的目标实体。其中,表格填充服务用于基于预定义的目标实体对当前意图和当前实体的名称和属性值进行关联处理得到最终的目标实体,其中,预定义的目标实体为预先定义的待采集的信息的名称和属性值对应的表格。之后,对于步骤103,将获取的当前的目标实体输出至实时信息抽取装置的前端,使得工作人员能够直观的观察到获取的目标实体。
本实施例的方法通过对每一轮的提问者的口语文本和回答者的口语文本进行实时信息抽取,然后将抽取的当前意图和当前实体的名称和属性值进行关联处理得到目标实体,并将每一轮获取的目标实体信息进行实时的输出,使得提问者可以实时的查看目标实体的结果,且无需手动录入干预,从而提高了信息录入的效率。
在口语交互场景下,提问者提出问题,回答者给出答案,然后提问者从答案中抽取关键信息录入到系统。在这个问答交互的过程中,提问者会针对所要获取的信息通过自然语言的表达方式进行提问,回答者也会将答案以口语的方式表述出来,但录入系统的信息必须是结构化的信息,因此提问者还需从回答者的口语表述中自动提取结构化的答案信息再手动录入系统。
在一个具体的实施例中,(以银行的客户信息录入场景为例),客服人员一般会有一张个人信息的表格,其中包含“姓名”、“年龄”、“联系方式”、“地址”等相关信息,我们将该表格要填的内容称为目标实体。客服人员会针对表格中的每一项对用户提问,如“您叫什么名字”,用户在表述其答案时一般会带有其他修饰信息,如“我叫张三”。客服人员需从用户的回答中提取出具体的人名“张三”,再将其手动录入系统。整个过程需要客服人员手动参与,不仅耗费人力,且效率很低。本专利提供的发明可以自动化抽取用户的关键信息并将其实时录入,不仅可以解放客服人员的双手,而且提高了效率。
进一步参考图2,其示出了本申请一实施例提供的另一种识别实时信息抽取方法的流程图。该流程图主要是对流程图1中的步骤102“将当前意图和当前实体的名称和属性值同时输入至表格填充服务中”的情况的进一限定的步骤的流程图。
如图2所示,在步骤201中,判断是否存在多个与当前意图相关的预定义的目标实体;
在步骤202中,若不存在多个与当前意图相关的预定义的目标实体,则将当前意图直接与当前实体的名称和属性值进行关联处理得到最终的目标实体;
在步骤203中,若存在多个与当前意图相关的预定义的目标实体,则将当前意图转换成具体化意图;并将具体化意图与当前实体的名称和属性值进行关联处理得到最终的目标实体。
在本实施例中,对于步骤201,实时信息抽取装置在完成对提问者的口语文本和回答者的口语文本进行意图理解服务以及实体解析服务之后,判断意图理解服务中是否输出了多个与当前意图相关的预定义的目标实体。之后,对于步骤202,若不存在多个与当前意图相关的预定义的目标实体,实时信息抽取装置基于表格填充服务,将当前意图直接与当前实体的名称和属性值进行关联处理得到最终的目标实体。之后,对于步骤203,若存在多个与当前意图相关的预定义的目标实体,实时信息抽取装置基于表格填充服务,则将当前意图转换成具体化意图;并将具体化意图与当前实体的名称和属性值进行关联处理得到最终的目标实体。
本实施例的方法先判断意图理解服务中是否输出了多个与当前意图相关的预定义的目标实体,再对不存在输出多个与当前意图相关的预定义的目标实体以及存在输出多个与当前意图相关的预定义的目标实体的两种情况分别进行针对性表格填充服务,从而提高了获取的当前的目标实体与当前意图关联的精准度。
进一步参考图3,其示出了本申请一实施例提供的再一种识别实时信息抽取方法的流程图。该流程图主要是对步骤203“若存在多个与当前意图相关的预定义的目标实体,则将当前意图转换成具体化意图;并将具体化意图与当前实体的名称和属性值进行关联处理得到最终的目标实体”的情况的进一步限定的步骤的流程图。
如图3所示,在步骤301中,获取上一轮的提问者的口语文本对应的意图;
在步骤302中,将当前意图基于上一轮的提问者的口语文本对应的意图转换成具体化意图。
在本实施例中,对于步骤301,在存在多个与当前意图相关的预定义的目标实体时,实时信息抽取装置获取上一轮的提问者的口语文本中的意图。之后,对于步骤302,实时信息抽取装置将上一轮的意图与当前轮的意图结合,使得将当前意图转换为具体化意图。这样,实现了结合上下文的信息对当前意图进行消歧,有效地提高了信息抽取的准确度。
进一步参考图4,其示出了本申请一实施例提供的一个具体实施例的实时信息抽取方法的流程图。该流程图主要是对流程图1的附加流程进一步限定的步骤的流程图。
如图4所示,在步骤401中,判断实时接收的提问者的口语文本和回答者的口语文本中是否存在结束信号;
在步骤402中,若实时接收的提问者的口语文本和回答者的口语文本中不存在结束信号,将实时接收的提问者的口语文本和回答者的口语文本同时输入至意图理解服务和实体解析服务进行处理;
在步骤403中,若实时接收的提问者的口语文本和回答者的口语文本中存在结束信号,直接输出最终的目标实体。
在本实施例中,对于步骤401,实时信息抽取装置在接收的提问者的口语文本和回答者的口语文本时,会对提问者的口语文本和回答者的口语文本进行查找并判断是否存在结束信号。之后,对于步骤402,若实时接收的提问者的口语文本和回答者的口语文本中不存在结束信号,实时信息抽取装置将实时接收的提问者的口语文本和回答者的口语文本同时输入至意图理解服务和实体解析服务进行处理。之后,对于步骤403,若实时接收的提问者的口语文本和回答者的口语文本中存在结束信号,直接输出最终的目标实体。这样,当实时信息抽取装置判断口语文本和回答者的口语文本中不存在结束信号,实时信息抽取装置能够进行持续的信息抽取任务,当实时信息抽取装置判断口语文本和回答者的口语文本中存在结束信号,则完成信息抽取任务,并输出最终的目标实体。
具体地,在将当前意图和当前实体的名称和属性值同时输入至表格填充服务中之后,实时信息抽取装置会对提问者的口语文本对应的当前意图以及当前实体的名称和属性值进行存储。
进一步参考图5,其示出了本申请一实施例提供的另一个具体实施例的实时信息抽取方法的流程图。该流程图主要是对流程图1的附加流程进一步限定的步骤的流程图。
如图5所示,在步骤501中,获取当前意图和/或当前实体的名称和属性值;
在步骤502中,对上一轮的当前意图和/或当前实体的名称和属性值进行替换更新。
在本实施例中,对于步骤501,在完成将当前意图和当前实体的名称和属性值同时输入至表格填充服务中之后,实时信息抽取装置将表格填充服务输出的当前意图和/或当前实体的名称和属性值进行存储。对于步骤502,在对表格填充服务输出的当前意图和/或当前实体的名称和属性值进行存储的同时,将上一轮的当前意图和/或当前实体的名称和属性值进行替换。这样,能够完成存储当前意图和/或当前实体的名称和属性值的数据库的更新。
如图6所示,其示出了本申请一实施例的一种识别实时信息抽取方法的工作流程框图。
输入:提问者和回答者交互的口语文本。
意图理解服务:该服务用于对提问者的问题进行意图分类,如,询问年龄、询问地址等。问题的意图存在包含和被包含的关系,如意图“询问地址”包含了“询问公司地址”,意图理解服务要做到通用,定义意图时必须要区分出意图之间的包含关系,意图解析的结果必须是当前文本的原始语义结果,不可带有上下文的推断。例如,提问者第一轮的问题是“你在哪家公司上班”,第二轮的问题是“地址在哪”,根据上文可以推断出第二轮问题中的地址指的是用户的公司所在地址。本发明中的意图理解服务不看前一轮的文本信息,只着眼于本轮的对话文本,因此第二轮的问题解析出来的意图就是“询问地址”,而非“询问公司地址”。在意图理解服务中,只有当提问者明确说了“你公司的地址在哪”,那么问题的意图才能是“询问公司地址”。本发明使用不基于上下文的意图理解服务,目的就是要确保该服务的通用性,使其可以适用于各个领域。并且,不带上下文的对话语料比较容易获得,意图服务的精准度也会比较高。而在后面的表格填充服务中,可以统筹管理上下文的信息对意图进行消岐,从而将此处的“询问地址”转换成“询问公司地址”。
意图理解所需的方法可以是现有的各种文本分类方法,本发明使用的是基于深度学习的文本分类方法,采用双向长短时记忆网络(BLSTM,bidirectional long-short termmemory network)进行建模。模型的输入是每一轮的对话文本,输出即是该文本的问题意图。
实体解析服务:该服务用于抽取文本中的原子信息,如人名、地址、年龄等。为了保证服务的通用性和高准确度,实体抽取也是不基于上下文的,所有的信息只局限于当前文本。因此,该服务在定义实体名称时也必须通用,不能有任何引申含义,这样才能应用于各个不同的对话场景。例如,数字类相关实体包括年龄、收入、数值等,对于文本”我今年三十岁”,那么这里的数字“三十”就属于“年龄”这个实体;如果文本是“三十”,由于该文本没有其他任何多余信息,因此,该句属于实体“数值”。“数值”属于“年龄”的父类,“数值”在一定条件下可以转换成“年龄”,但是“年龄”不能转换成“数值”。例如当提问者的问题是“你的年龄是多少”,用户回答“三十”,那么此时,实体解析服务出来的结果就是“数值=三十”,然后在表格填充服务会根据意图的类别将“数值”转成“年龄”。
实体解析服务所用的方法可以是基于规则和词表的实体识别,也可以是基于统计的实体识别。在本发明中,使用的是基于深度学习的序列标注方法,仍然采用双向长短时记忆网络进行建模。模型的输入是每一轮对话的文本,输出即是该文本中各个实体的键值对。模型输出的结果会经过一个归一化的后处理步骤,该步骤主要是将部分实体值的原始汉字转成特定的格式。例如,将日期转成10位年月日形式,如“八九年五月三十日”转成“1989-05-30”。
表格填充服务:将实体与意图关联起来,从而得到最终的目标实体信息。该服务首先要定义最终输出的目标实体,然后根据意图信息和候选实体信息确定最终的输出。输入的文本同时进入意图理解服务和实体解析服务,表格填充服务拿到这二者的结果后,若意图理解服务的结果不为空,那填充服务会认为此文本是提问者的输入,然后保留该问题的意图到数据库,若意图是泛化的意图,如“询问地址”,那么需要将其转成具体的目标意图。转换时,若目标实体中只有一个地址相关的实体,则可以直接将该泛化的意图转成具体的目标意图,若目标实体中有多个地址相关的实体,则可根据上一轮的问题意图来将其转成目标意图。若意图理解服务结果为空,而实体服务的结果不为空,那么填充服务会认为此轮对话是回答者的输入。表格填充服务从数据库中拿到上一轮提问者的意图,然后与本轮的候选实体进行匹配,若匹配成功,则输出该实体的对应结果,并将实体对应的结果保存到数据库中。
表格存储:用于存储每一轮的提问者的意图和目标实体信息,每一轮的对话文本,若文本是提问者的问题,则更新问题意图;若对话是回答者的实体答案,则将最新的实体信息更新到数据库里,没有被填充的实体取值为None。
客服人员在开启对话后,会针对预先设定目标实体项进行逐一提问。客服人员的问题和用户的回答会逐一进入系统进行分析。当对话文本进入到系统后,系统会判断这是否是一个开始信号、结束信号、还是正常文本。若是开始信号,系统会为当前对话构建一个数据库,用于存放目标实体的结果。若是一个结束信号,系统会把数据库里保存的所有实体信息输出出来。如果是一个正常的文本,系统会同时请求实体解析服务和意图理解服务,然后这两个服务的结果会进入到表格填充服务进行判断,只要意图理解服务的输出不为空,则认为该文本是客服人员的问题,然后系统会将意图保存至数据库里。若意图理解服务的结果为空,则表示该句是用户的回答,此时,系统会去数据库里拿到上一轮客服人员的问题意图,然后针对本轮的实体解析结果进行问题与答案的匹配,匹配成功之后,将实体的答案保存至数据库中,并且同时返回到前端界面。
整个对话的过程,客服人员可以实时的看到每个需要抽取的实体是否正确。若发现中间有实体抽取错误或者实体结果缺失的情况,可以及时纠正。纠正的方式可以进行再次提问,系统可以重新修改实体结果。如若某些特殊的情况导致某个实体的抽取一直出错(比如,语音识别结果中人名的识别容易出错),客服人员也可以现场立马手动修改结果,确保了本系统实用性。
本产品在讨论需求实现的方式阶段,曾经有过另外一种实现方式,但经过综合考虑和分析,还是选择了现在的这种实现方式。备选方案介绍如下:
采用人机对话的方式进行实体信息抽取
此方法是将提问者设定为机器,预先根据需要填写的表单信息在机器中定义需要询问的问题,将问题保存在数据库中维护一张问题列表,机器按顺序每次从数据库中选择一个问题对用户进行提问,用户根据机器询问的问题进行回答,通过对用户回答的内容进行语义解析,从用户的回答中抽取该问题所需要的实体信息,并将提取出的实体信息和问题保存在数据库中。
优点:在该方法中,提问者被设定为机器,问题是预先定义好的,只需要关注回答者的回答,从回答中抽取实体信息,该方法可以极大简化业务处理的逻辑流程,不需要从语义层面来实现将问题和答案进行区分与匹配,对于提问者和回答者的身份区分也比较简单和准确,在问题明确的前提下从回答中抽取信息也能更加准确和高效。
缺点:此方法由于设定了提问者为机器,因此只能应用于人机对话中,泛化性和灵活性比较差,运用于具体的服务行业时也会大大降低用户体验,同时由于提问者是机器,无法在用户对问题产生错误理解时对用户进行及时地更正和引导,也不能及时回答用户提出的问题。
请参考图7,其示出了本发明一实施例的识别实时信息抽取装置的框图。
如图7所示,实时信息抽取装置600包括意图理解模块610、实体解析模块620、表格填充模块630以及输出模块640。
其中,意图理解模块610以及实体解析模块620,配置为将实时接收的提问者的口语文本和回答者的口语文本同时输入至意图理解服务和实体解析服务进行处理,其中,意图理解服务用于对提问者的口语文本进行意图分类并输出提问者的口语文本对应的当前意图,实体解析服务用于抽取提问者的口语文本和回答者的口语文本中的实体并输出当前实体的名称和属性值;表格填充模块630,配置为将当前意图和当前实体的名称和属性值同时输入至表格填充服务中,其中,表格填充服务用于基于预定义的目标实体对当前意图和当前实体的名称和属性值进行关联处理得到最终的目标实体,其中,预定义的目标实体为预先定义的待采集的信息的名称和属性值对应的表格;输出模块640,配置为输出当前的目标实体。
应当理解,图7中记载的诸模块与参考图1、图2、图3、图4和图5中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图7中的诸模块,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的实时信息抽取方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
将实时接收的提问者的口语文本和回答者的口语文本同时输入至意图理解服务和实体解析服务进行处理;
将当前意图和当前实体的名称和属性值同时输入至表格填充服务中;
输出当前的目标实体。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据用于语音对话的通讯补偿装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至实时信息抽取装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项实时信息抽取方法。
图8是本发明实施例提供的电子设备的结构示意图,如图7所示,该设备包括:一个或多个处理器710以及存储器720,图7中以一个处理器710为例。用于语音对话的通讯补偿方法的设备还可以包括:输入装置730和输出装置740。处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接,图7中以通过总线连接为例。存储器720为上述的非易失性计算机可读存储介质。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例用于语音对话的通讯补偿方法。输入装置730可接收输入的数字或字符信息,以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于实时信息抽取装置中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
将实时接收的提问者的口语文本和回答者的口语文本同时输入至意图理解服务和实体解析服务进行处理;
将当前意图和当前实体的名称和属性值同时输入至表格填充服务中;
输出当前的目标实体。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种实时信息抽取方法,包括:
将实时接收的提问者的口语文本和回答者的口语文本同时输入至意图理解服务和实体解析服务进行处理,其中,所述意图理解服务用于对提问者的口语文本进行意图分类并输出提问者的口语文本对应的当前意图,所述实体解析服务用于抽取所述提问者的口语文本和所述回答者的口语文本中的实体并输出当前实体的名称和属性值;
将所述当前意图和所述当前实体的名称和属性值同时输入至表格填充服务中,其中,所述表格填充服务用于基于预定义的目标实体对所述当前意图和所述当前实体的名称和属性值进行关联处理得到最终的目标实体,其中,所述预定义的目标实体为预先定义的待采集的信息的名称和属性值对应的表格;
输出当前的目标实体;
其中,所述将所述当前意图和所述当前实体的名称和属性值同时输入至表格填充服务中还包括:
判断是否存在多个与所述当前意图相关的所述预定义的目标实体;
若不存在多个与所述当前意图相关的所述预定义的目标实体,则将所述当前意图直接与所述当前实体的名称和属性值进行关联处理得到最终的目标实体;
若存在多个与所述当前意图相关的所述预定义的目标实体,则将所述当前意图转换成具体化意图,其中,所述具体化意图为所述当前意图基于上一轮的提问者的口语文本对应的意图转换得到;
将所述具体化意图与所述当前实体的名称和属性值进行关联处理得到最终的目标实体。
2.根据权利要求1所述的方法,其中,所述若存在多个与所述当前意图相关的所述预定义的目标实体,则将所述当前意图转换成具体化意图包括:
获取上一轮的提问者的口语文本对应的意图;
将所述当前意图基于上一轮的提问者的口语文本对应的意图转换成具体化意图。
3.根据权利要求1所述的方法,其中,在所述将实时接收的提问者的口语文本和回答者的口语文本同时输入至意图理解服务和实体解析服务进行处理之前,所述方法还包括:
判断所述实时接收的提问者的口语文本和回答者的口语文本中是否存在结束信号;
若所述实时接收的提问者的口语文本和回答者的口语文本中不存在结束信号,将所述实时接收的提问者的口语文本和回答者的口语文本同时输入至意图理解服务和实体解析服务进行处理;
若所述实时接收的提问者的口语文本和回答者的口语文本中存在结束信号,直接输出最终的目标实体。
4.根据权利要求1所述的方法,其中,在将所述当前意图和所述当前实体的名称和属性值同时输入至表格填充服务中之后,还包括:
对所述提问者的口语文本对应的当前意图以及所述当前实体的名称和属性值进行存储。
5.根据权利要求4所述的方法,其中,所述对所述提问者的口语文本对应的当前意图以及所述当前实体的名称和属性值进行存储包括:
获取所述当前意图和/或所述当前实体的名称和属性值;
对上一轮的所述当前意图和/或所述当前实体的名称和属性值进行替换更新。
6.一种实时信息抽取装置,包括:
意图理解模块以及实体解析模块,配置为将实时接收的提问者的口语文本和回答者的口语文本同时输入至意图理解服务和实体解析服务进行处理,其中,所述意图理解服务用于对提问者的口语文本进行意图分类并输出提问者的口语文本对应的当前意图,所述实体解析服务用于抽取所述提问者的口语文本和所述回答者的口语文本中的实体并输出当前实体的名称和属性值;
表格填充模块,配置为将所述当前意图和所述当前实体的名称和属性值同时输入至表格填充服务中,其中,所述表格填充服务用于基于预定义的目标实体对所述当前意图和所述当前实体的名称和属性值进行关联处理得到最终的目标实体,其中,所述预定义的目标实体为预先定义的待采集的信息的名称和属性值对应的表格;
输出模块,配置为输出当前的目标实体;
其中,所述表格填充模块进一步配置为:
判断是否存在多个与所述当前意图相关的所述预定义的目标实体;
若不存在多个与所述当前意图相关的所述预定义的目标实体,则将所述当前意图直接与所述当前实体的名称和属性值进行关联处理得到最终的目标实体;
若存在多个与所述当前意图相关的所述预定义的目标实体,则将所述当前意图转换成具体化意图,其中,所述具体化意图为所述当前意图基于上一轮的提问者的口语文本对应的意图转换得到;
将所述具体化意图与所述当前实体的名称和属性值进行关联处理得到最终的目标实体。
7.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至5任一项所述方法的步骤。
8.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010566398.0A CN111723559B (zh) | 2020-06-19 | 2020-06-19 | 一种实时信息抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010566398.0A CN111723559B (zh) | 2020-06-19 | 2020-06-19 | 一种实时信息抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111723559A CN111723559A (zh) | 2020-09-29 |
CN111723559B true CN111723559B (zh) | 2023-06-23 |
Family
ID=72567738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010566398.0A Active CN111723559B (zh) | 2020-06-19 | 2020-06-19 | 一种实时信息抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111723559B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364622A (zh) * | 2020-11-11 | 2021-02-12 | 杭州大搜车汽车服务有限公司 | 对话文本分析方法、装置、电子装置及存储介质 |
CN112399129B (zh) * | 2021-01-19 | 2021-04-13 | 中国平安人寿保险股份有限公司 | 基于小程序的在线视频通讯方法、装置及计算机设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446286A (zh) * | 2017-02-16 | 2018-08-24 | 阿里巴巴集团控股有限公司 | 一种自然语言问句答案的生成方法、装置及服务器 |
CN108446322A (zh) * | 2018-02-10 | 2018-08-24 | 灯塔财经信息有限公司 | 一种智能问答系统的实现方法和装置 |
CN109637674A (zh) * | 2018-10-30 | 2019-04-16 | 北京健康有益科技有限公司 | 自动获取健康医疗问题答案的方法、系统、介质和设备 |
CN109727041A (zh) * | 2018-07-03 | 2019-05-07 | 平安科技(深圳)有限公司 | 智能客服多轮问答方法、设备、存储介质及装置 |
CN110659351A (zh) * | 2019-09-27 | 2020-01-07 | 北京百度网讯科技有限公司 | 用于挖掘实体上下位关系的方法和装置 |
CN111191016A (zh) * | 2019-12-27 | 2020-05-22 | 车智互联(北京)科技有限公司 | 一种多轮对话处理方法、装置及计算设备 |
-
2020
- 2020-06-19 CN CN202010566398.0A patent/CN111723559B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446286A (zh) * | 2017-02-16 | 2018-08-24 | 阿里巴巴集团控股有限公司 | 一种自然语言问句答案的生成方法、装置及服务器 |
CN108446322A (zh) * | 2018-02-10 | 2018-08-24 | 灯塔财经信息有限公司 | 一种智能问答系统的实现方法和装置 |
CN109727041A (zh) * | 2018-07-03 | 2019-05-07 | 平安科技(深圳)有限公司 | 智能客服多轮问答方法、设备、存储介质及装置 |
WO2020006835A1 (zh) * | 2018-07-03 | 2020-01-09 | 平安科技(深圳)有限公司 | 智能客服多轮问答方法、设备、存储介质及装置 |
CN109637674A (zh) * | 2018-10-30 | 2019-04-16 | 北京健康有益科技有限公司 | 自动获取健康医疗问题答案的方法、系统、介质和设备 |
CN110659351A (zh) * | 2019-09-27 | 2020-01-07 | 北京百度网讯科技有限公司 | 用于挖掘实体上下位关系的方法和装置 |
CN111191016A (zh) * | 2019-12-27 | 2020-05-22 | 车智互联(北京)科技有限公司 | 一种多轮对话处理方法、装置及计算设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111723559A (zh) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10438586B2 (en) | Voice dialog device and voice dialog method | |
CN111177359A (zh) | 多轮对话方法和装置 | |
CN109522397B (zh) | 信息处理方法及装置 | |
CN114547274B (zh) | 多轮问答的方法、装置及设备 | |
CN111723559B (zh) | 一种实时信息抽取方法及装置 | |
CN111241260A (zh) | 基于人机交互的数据处理方法、装置、设备及存储介质 | |
CN110580516B (zh) | 一种基于智能机器人的交互方法及装置 | |
CN116737908A (zh) | 知识问答方法、装置、设备和存储介质 | |
CN111553138B (zh) | 用于规范内容结构文档的辅助写作方法及装置 | |
CN113342948A (zh) | 一种智能问答方法及装置 | |
CN116821290A (zh) | 面向多任务对话的大语言模型训练方法和交互方法 | |
CN113486166B (zh) | 智能客服机器人的构建方法、装置、设备以及存储介质 | |
CN115905497B (zh) | 确定答复语句的方法、装置、电子设备和存储介质 | |
CN109388695B (zh) | 用户意图识别方法、设备及计算机可读存储介质 | |
CN109684357B (zh) | 信息处理方法及装置、存储介质、终端 | |
CN109033082B (zh) | 语义模型的学习训练方法、装置及计算机可读存储介质 | |
CN115936016A (zh) | 基于对话的情绪主题识别方法、装置、设备以及介质 | |
CN115510213A (zh) | 用于作业机械的问答方法及系统、作业机械 | |
CN110263346B (zh) | 基于小样本学习的语意分析方法、电子设备及存储介质 | |
CN114255750A (zh) | 数据集构建和任务式对话方法、电子设备和存储介质 | |
CN111556096A (zh) | 信息推送方法、装置、介质及电子设备 | |
CN112466286A (zh) | 数据处理方法及装置、终端设备 | |
CN111460106A (zh) | 一种信息交互方法、装置及设备 | |
CN116910278A (zh) | 数据字典的生成方法、终端设备和存储介质 | |
CN114138958A (zh) | 信息交互方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |