CN115168544A - 信息提取方法及电子设备和存储介质 - Google Patents

信息提取方法及电子设备和存储介质 Download PDF

Info

Publication number
CN115168544A
CN115168544A CN202210877315.9A CN202210877315A CN115168544A CN 115168544 A CN115168544 A CN 115168544A CN 202210877315 A CN202210877315 A CN 202210877315A CN 115168544 A CN115168544 A CN 115168544A
Authority
CN
China
Prior art keywords
sentences
model
segment
dialog
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210877315.9A
Other languages
English (en)
Inventor
徐华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN202210877315.9A priority Critical patent/CN115168544A/zh
Publication of CN115168544A publication Critical patent/CN115168544A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种信息提取方法、电子设备和存储介质,其中方法包括:将多轮对话的对话文本切分为至少一个片段,每一个片段包括多个句子;利用预训练模型网络分别提取所述多个句子的语义向量;基于每一片段中的多个句子的语义向量确定所述多个句子中句子与句子之间的关联关系;将句子的关联向量和字向量融合后,判断该字是否是实体的开始和结束。本发明实施例通过将对话文本切分为包含多个句子的片段后提取多个句子的语义向量,根据多个句子的语义向量来确定句子与句子之间的关联关系,可以解决由于对话的轮数可能很长,几十到上千句,长度相差太大统一处理会导致模型的计算需求很高的问题。

Description

信息提取方法及电子设备和存储介质
技术领域
本发明属于信息提取技术领域,尤其涉及一种信息提取方法及电子设备和存储介质。
背景技术
对话系统社会生产生活中有着广泛的应用,比如客服系统,电话销售,门店店员服务等;在这些场景中有这广泛的自动化信息提取需求,能大大方便文案记录和整理的工作量。信息提取是自然语言处理重要方向,在限定应用场景下,给定一句输入的文本(query),程序输出对应的“实体类别”和“取值”。目前市面的主要方法有:1、基于规则匹配实体类别识别和实体值提取;2、基于CRF算法的实体类别识别和实体值提取;3、基于深度学习的实体类别识别和实体值提取。
基于规则匹配的实体类别识别和实体值提取:每个应用场景,人工根据业务需求,整理出所需要的实体的各种场景,使用正则语法,设计相应的规则去匹配各种不同的说法。需要人工调整规则的权重,把所有匹配上的规则按权重高低输出得分最高的规则的结果。根据规则匹配结果,输出对应槽位的值作为实体值,由匹配规则确定实体类别。
基于CRF算法的实体类别识别和实体值提取:条件随机场(CRF)是一种无向图模型,由Lafferty等人于2001年提出,结合了最大熵模型和隐马尔可夫模型的特点。CRF是一个序列化标注算法,接收一个输入序列如[x1,x2,。。,xn]并且输出目标序列[y1,y2,。。,yn],也能被看作是一种seq2seq模型,根据输出的序列标注值提取出所需的信息。
基于深度学习的意图识别和槽位提取:没有复杂的人工取特征的过程,分好词或者直接使用字输入即可,准备好标注好的样本训练集,深度学习模型自动学习特征表达能力,端到端的解决问题。常用模型有:BERT(Bidirectional Encoder Representation fromTransformers)、LSTM(Long Short Term Memory Network),Transformer等。
发明人发现:现有技术方法都是相对通用的方法,理论上适用于各个场景,但有一个共同的问题:不能有效利用特定场景的特点,抓住特定场景内蕴的结构;在对话系统场景中,没有针对对话的特点做出相应优化;由于对话文本可能很长,这些方法需要很高的计算资源和性能,这常常很难满足。
发明内容
本发明实施例旨在至少解决上述技术问题之一。
第一方面,本发明实施例提供一种信息提取方法,包括:将多轮对话的对话文本切分为至少一个片段,每一个片段包括多个句子;利用预训练模型网络分别提取所述多个句子的语义向量;基于每一片段中的多个句子的语义向量确定所述多个句子中句子与句子之间的关联关系。
第二方面,本发明实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项信息提取方法。
第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项信息提取方法。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项信息提取方法。
本发明实施例通过将对话文本切分为包含多个句子的片段后提取多个句子的语义向量,根据多个句子的语义向量来确定句子与句子之间的关联关系,可以解决由于对话的轮数可能很长,几十到上千句,长度相差太大统一处理会导致模型的计算需求很高的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的信息提取方法的一实施例的流程图;
图2为本发明的信息提取方法的另一实施例的流程图;
图3为本发明一实施例提供的一种信息提取过程流程图;
图4为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例提供一种信息提取方法,该方法可以应用于电子设备。电子设备可以是电脑、服务器或者其他电子产品等,本发明对此不作限定。
请参考图1,其示出了本发明一实施例提供的一种信息提取方法。
如图1所示,在步骤101中,将多轮对话的对话文本切分为至少一个片段,每一个片段包括多个句子;
在步骤102中,利用预训练模型网络分别提取所述多个句子的语义向量;
在步骤103中,基于每一片段中的多个句子的语义向量确定所述多个句子中句子与句子之间的关联关系。
在本实施例中,对于步骤101,获取用户输入的语音对话数据,将语音对话数据转换成对话文本,把转换后的对话文本切分为至少一个片段,其中切分后的每一个片段里面包含多个句子;之后,对于步骤102,提取片段里面所有句子的语义向量,通过利用预训练模型网络分别提取片段里面所有句子的语义向量,例如,每一个句子都可以通过同一个预训练模型网络来获取其代表句子的语义向量和每个字的字语义向量,利用预训练模型提取句子语义和字词的语义。
最后,对于步骤103,再获取每一片段中所有句子的语义向量后,根据每一片段中的多个句子的语义向量来确定多个句子中句子与句子之间的关联关系。
本申请实施例的方法通过将对话文本切分为包含多个句子的片段后提取多个句子的语义向量,根据多个句子的语义向量来确定句子与句子之间的关联关系,可以解决由于对话的轮数可能很长,几十到上千句,长度相差太大统一处理会导致模型的计算需求很高的问题。
在一些可选的实施例中,再获取句子与句子之间的关联关系后,将句子的关联向量和字向量融合后,判断该字是否是实体的开始和结束,根据句子与句子之间的关联关系在多个句子中进行实体提取,实体提取的方法采用多个span模型网络在多个句子中进行实体提取,其中每一个句子连接一个span模型网络,该span模型网络能够判断每一个句子中各个实体的开始和结尾,以及识别各个实体的实体类别,该实体提取包括实体类别识别和实体值提取,例如,根据句子与句子之间的关系,每一个句子后接一个span模型网络,即N个分类模型,来判断是否是实体的开始(begin)和结尾(end),同时识别实体类别,使用句子关联关系指导句内的实体提取,其中句内实体提取采用span模型。
本申请实施例的方法通过确定句子与句子之间的关联关系后,采用多个span模型网络就可以实现对句子进行实体提取,和实体类别识别。
在一些可选的实施例中,利用注意力网络连接多个句子的句子语义向量,利用注意力网络编码多个句子中句子与句子之间的关联关系,其中,注意力网络能够传递句子级别的语义信息,例如,利用一个独立的attention(注意力)网络,这个网络连接了每一句话的句子语义,注意力网络用来编码句子与句子之间的关系,同时注意力网络还用于传递句子与句子之间的级别语义信息。
本申请实施例的方法通过利用注意力网络来编码多个句子中句子与句子之间的关联关系,可以更精准的确认出句子与句子之间的级别语义信息。
在一些可选的实施例中,将多轮对话的对话文本切分成至少一个片段,其中,每一个片段包括预设数量的句子,句子对应于多轮对话中每一轮对话时一个角色的对话文本,例如,将用户输入的语音信息转换为对话文本后,将对话文本进行切片处理,按照角色转化成一句一句的对话格式,按照窗口切分出片段列表,可以采用滑动窗口方式,如20句一切片,每隔10句一滑动。
本申请实施例的方法通过将用户输入的对话文本进行切片处理,可以解决由于对话的轮数可能很长,几十到上千句,长度相差太大统一处理会导致模型的计算需求很高带来的问题。
请参考图2,其示出了本发明一实施例提供的另一种信息提取方法。该流程图主要是对流程图图1进一步限定的步骤的流程图,其中,所述信息提取方法利用信息提取模型实现,所述信息提取模型包括预训练模型网络、span模型网络和注意力网络,所述信息提取模型的训练方法为以下步骤。
如图2所示,在步骤201中,对多轮对话的对话文本进行切分得到至少一个片段,其中,每一个片段包括句子间的标注和句内的标注;
在步骤202中,将所述至少一个片段输入至所述信息提取模型中进行训练。
在本实施例中,对于步骤201,对用户多轮对话转换后得到的对话文本进行切分得到至少一个片段,每一个片段包括句子间的标注和句内的标注,标注时同时应用句子与句子之间的信息和所述句子的句内信息;对于步骤202,将对话文本切分后得到的多个片段输入至信息提取模型中进行训练,在训练完成后对每个输入的片段做预测处理,对预测结果汇总、排序以及去重,得到最终的输出结果,其中模型复杂度接近于单个句子的模型复杂度,不会随着句子增加而快速膨胀。
本申请实施例的方法通过将对话文本切分后得到的片段输入至信息提取模型中进行训练,可以解决片段中不会随着句子数变多而快速膨胀的问题。
需要说明的是,本申请把每一句话分别使用预训练模型,而不是把对话整体一起输入,如果把对话整体直接使用bert等模型,输入句子太长会导致内存占用极大,同时训练速度很慢。一般bert模型限制输入长度为512字。新的网络只在每一句话中使用bert,句子之间的关联关系通过另一个网络来提取,这大大减少了模型参数数量。整个模型复杂度接近于单句模型复杂度,不会随着句子数变多而快速膨胀。
本申请还提供另一种信息提取方法,在预训练大规模的语言模型的基础上,直接用分类模型,将实体类别和目标值转换成固定标签;利用固定标签对模型进行训练,得到训练后的模型,其中,模型包括分类模型;利用训练后的模型对多轮对话的对话文本进行实体提取和分类,例如,把实体类别和值都转成固定的标签,比如“年龄-18”这种格式;这样就可以使用分类模型来解决这个问题。训练数据就是对应的分类模型数据,输出数据就是对应的类别及值。该方法相对简单,比较常见,容易应用。
需要说明的是,本申请提供的方法中,由于对话的轮数可能很长,几十到上千句,长度相差太大统一处理会导致模型的计算需求很高,另一方面是预测结果性能较差。我们根据实际场景和数据总结,发现绝大部分信息可以根据局部对话来提取,比如说信息点前后十句就足够了。
同时采用采用滑动窗口方式,20句一切片,每隔10句一滑动,对全局结果合并去重。窗口滑动的方法如下:
1从第1句到第20句为第一个切片,
2从第11句到30句为第二个切片,
3从第21句到40句为第三个切片,
3依次类推,每个切片为20句,相邻切片有10句重合交叉。
这样既保证了每个信息点都有足够的上下文信息,避免了实体出现在切片交叉的地方导致信息丢失,又解决了文本太长的问题,但是由于数据交叉,可能出现结果重合的情况,最后需要对结果进行去重。
针对对话系统特殊的结构特点,我们设计了一种多层次网络结构的深度学习算法。该方法主要有如下的结构:
使用bert做encode层,每一句话通过bert模型网络,获取其代表句子的语义向量和每个字的字语义向量;这里利用预训练模型提取句子语义和字词的语义,其中预训练模型为一个bert模型,所有句子都使用同一个bert模型。
一个独立的attention网络,这个网络连接了每一句话的句子语义,用来编码句子与句子之间的关系。
每一句话后接一个span模型网络,即N个分类模型,来判断是否是实体的begin和end,同时识别实体类别。
该方法解决了计算性能的瓶颈,主要利用了以下两点:
1、对对话切分,把文档级缩减成段落级;
2、新设计的适用于对话的网络模型,对每一句话分别使用预训练模型,而不是把对话整体一起输入。
如果把对话整体直接使用bert等模型,输入句子太长会导致内存占用极大,同时训练速度很慢。一般bert模型限制输入长度为512字。新的网络只在每一句话中使用bert,句子之间的关联关系通过另一个网络来提取,这大大减少了模型参数数量。整个模型复杂度接近于单句模型复杂度,不会随着句子数变多而快速膨胀。
另外该方法也是针对对话系统独有特点设计的算法:
1、句子之间的attention网络主要传递句子级别语义信息;
2、实体识别和值提取,时同时利用了句子之间的信息和这一句话本身的语义信息。
请参考图3,其出示了本发明的信息提取方法的实现流程图。虽然在图3中示出的是每一个句子经过一个预训练模型,其实经过的是同一个预训练模型,后续不再赘述。
如图3所示,a)输入对话,按照每一轮对话的格式生成输入数据;
b)对输入做滑动窗口切分,分成一系列对话片段;
c)对每个片段输入模型训练,训练完成后对输入做预测;
d)对预测结果汇总,排序,去重,得到最终的输出结果,预测的实体类别及实体值信息。
具体过程:
1)对输入做处理,按照角色转化成一句一句的对话格式,按照窗口切分出片段列表;
2)每一个片段输入程序,程序对每一句输入预训练模型,本方案中使用BERT,其他模型也可以,输入是每个句子的文本字符;
3)提取出句子的语义向量,和每个字词(token)的语义向量。如图3所示,BERT模型输出的cls向量,即表示整个句子的语义向量,而w1,…,wn表示句子中每个字的语义向量;
4)对所有句子的语义做attention,提取句子之间的上下文关联关系。把每个句子的cls向量通过句间attention网络学习句子之间的关联向量s,s向量中的每个取值表明该句话在现有任务中的重要性。
5)使用句子关联关系指导句内的实体提取。将s向量与每句话的字向量结合输入到span模型进行分类,分类主要判断每个字是否是某个实体的开始和结尾,比如第3个字为实体1的开始,第6个字为实体1的结束,那么实体1的内容就是第3-6个字。
6)最终对所有提取的实体做过滤去重排序,得出最终结果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项信息提取方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项信息提取方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行信息提取方法。
图4是本申请另一实施例提供的执行信息提取方法的电子设备的硬件结构示意图,如图4所示,该设备包括:
一个或多个处理器410以及存储器420,图4中以一个处理器410为例。
执行信息提取方法的设备还可以包括:输入装置430和输出装置440。
处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接,图4中以通过总线连接为例。
存储器420作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的信息提取方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例信息提取方法。
存储器420可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据信息提取设备的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器420可选包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至信息提取设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可接收输入的数字或字符信息,以及产生与信息提取设备的用户设置以及功能控制有关的信号。输出装置440可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器420中,当被所述一个或者多个处理器410执行时,执行上述任意方法实施例中的信息提取方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据交互功能的机载电子装置,例如安装上车辆上的车机装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种信息提取方法,包括:
将多轮对话的对话文本切分为至少一个片段,每一个片段包括多个句子;
利用预训练模型网络分别提取所述多个句子的语义向量;
基于每一片段中的多个句子的语义向量确定所述多个句子中句子与句子之间的关联关系。
2.根据权利要求1所述的方法,其中,在所述基于每一片段中的多个句子的语义向量确定所述多个句子中句子与句子之间的关联关系之后,还包括:
基于所述关联关系,在所述多个句子中进行实体提取,其中,所述实体提取包括实体类别识别和实体值提取。
3.根据权利要求2所述的方法,其中,所述基于所述关联关系,在所述多个句子中进行实体提取包括:
采用多个span模型网络在所述多个句子中进行实体提取,其中,每一个句子后连接一个span模型网络,所述span模型网络能够判断每一个句子中各个实体的开始和结尾,以及识别所述各个实体的实体类别。
4.根据权利要求1所述的方法,所述利用预训练模型网络分别提取所述多个句子的语义向量包括:
利用预训练模型网络作为编码层分别提取所述多个句子的语义向量和提取每一个句子中各个字词的语义向量。
5.根据权利要求1所述的方法,其中,所述基于所述语义向量确定所述多个句子中句子与句子之间的关联关系包括:
利用注意力网络连接所述多个句子的句子语义向量,利用所述注意力网络编码所述多个句子中句子与句子之间的关联关系,其中,所述注意力网络能够传递句子级别的语义信息。
6.根据权利要求1所述的方法,其中,所述将多轮对话的对话文本切分为至少一个片段,每一个片段包括多个句子包括:
将所述多轮对话的对话文本切分成至少一个片段,其中,每一个片段包括预设数量的句子,所述句子对应于所述多轮对话中每一轮对话时一个角色的对话文本。
7.根据权利要求1所述的方法,其中,所述信息提取方法利用信息提取模型实现,所述信息提取模型包括预训练模型网络、span模型网络和注意力网络,所述信息提取模型的训练方法包括:
对多轮对话的对话文本进行切分得到至少一个片段,其中,每一个片段包括句子间的标注和句内的标注;
将所述至少一个片段输入至所述信息提取模型中进行训练。
8.一种信息提取方法,包括:
将实体类别和目标值转换成固定标签;
利用所述固定标签对模型进行训练,得到训练后的模型,其中,所述模型包括分类模型;
利用训练后的模型对多轮对话的对话文本进行实体提取和分类。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至8任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。
CN202210877315.9A 2022-07-22 2022-07-22 信息提取方法及电子设备和存储介质 Pending CN115168544A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210877315.9A CN115168544A (zh) 2022-07-22 2022-07-22 信息提取方法及电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210877315.9A CN115168544A (zh) 2022-07-22 2022-07-22 信息提取方法及电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN115168544A true CN115168544A (zh) 2022-10-11

Family

ID=83497736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210877315.9A Pending CN115168544A (zh) 2022-07-22 2022-07-22 信息提取方法及电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115168544A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116361442A (zh) * 2023-06-02 2023-06-30 国网浙江宁波市鄞州区供电有限公司 基于人工智能的营业厅数据分析方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116361442A (zh) * 2023-06-02 2023-06-30 国网浙江宁波市鄞州区供电有限公司 基于人工智能的营业厅数据分析方法及系统
CN116361442B (zh) * 2023-06-02 2023-10-17 国网浙江宁波市鄞州区供电有限公司 基于人工智能的营业厅数据分析方法及系统

Similar Documents

Publication Publication Date Title
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
CN110516253B (zh) 中文口语语义理解方法及系统
CN107085581B (zh) 短文本分类方法和装置
CN112164391B (zh) 语句处理方法、装置、电子设备及存储介质
CN111651996A (zh) 摘要生成方法、装置、电子设备及存储介质
CN113051374B (zh) 一种文本匹配优化方法及装置
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN111382231B (zh) 意图识别系统及方法
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
CN112329824A (zh) 多模型融合训练方法、文本分类方法以及装置
CN107862058B (zh) 用于生成信息的方法和装置
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN111159358A (zh) 多意图识别训练和使用方法及装置
CN113553412B (zh) 问答处理方法、装置、电子设备和存储介质
CN111177186A (zh) 基于问题检索的单句意图识别方法、装置和系统
CN113780007A (zh) 语料筛选方法、意图识别模型优化方法、设备及存储介质
CN116578688A (zh) 基于多轮问答的文本处理方法、装置、设备及存储介质
CN116166827B (zh) 语义标签抽取模型的训练和语义标签的抽取方法及其装置
CN116680386A (zh) 基于多轮对话的答案预测方法和装置、设备、存储介质
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN113793599B (zh) 语音识别模型的训练方法和语音识别方法及装置
CN111199151A (zh) 数据处理方法、及数据处理装置
CN115168544A (zh) 信息提取方法及电子设备和存储介质
CN113850291A (zh) 文本处理及模型训练方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination