CN117952097A - 事件抽取方法、相关设备及存储介质 - Google Patents
事件抽取方法、相关设备及存储介质 Download PDFInfo
- Publication number
- CN117952097A CN117952097A CN202311047572.0A CN202311047572A CN117952097A CN 117952097 A CN117952097 A CN 117952097A CN 202311047572 A CN202311047572 A CN 202311047572A CN 117952097 A CN117952097 A CN 117952097A
- Authority
- CN
- China
- Prior art keywords
- target
- topic
- content
- sentence
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 82
- 238000004458 analytical method Methods 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 18
- 238000010219 correlation analysis Methods 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种事件抽取方法、相关设备及存储介质,用于提高事件抽取效率和准确率低,以及增加抽取结果的可解释性。所述事件抽取方法包括:获取与目标对话文本的意图标签相关的主题信息,所述意图标签用于表示所述目标对话文本的用户意图,所述主题信息用于描述所述目标对话文本中与所述用户意图相关的内容主题,所述主题信息通过对具有所述意图标签的样本对话文本进行主题分析得到;基于所述主题信息,从所述目标对话文本中确定关键句;从所述关键句中抽取目标短语,以得到目标事件,所述目标短语包括具有指定依存关系的词语。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种事件抽取方法、相关设备及存储介质。
背景技术
事件抽取是自然语言处理领域的一个重要问题,它是指从文本中抽取事件的过程,也可以理解为从文本中抽取特定信息的过程。相关技术中,事件抽取方法通常需要利用大量人工标注数据训练事件抽取模型。但是,人工标注成本高、费时费力,并且,由于事件表达的多样性和复杂性,人工标注数据难以覆盖所有情况,导致模型训练效果不佳,存在抽取不准确和漏抽取的问题。因此,快速、准确地进行事件抽取,成为了研究的一个热点问题。
发明内容
本申请实施例的目的提供一种事件抽取方法、相关设备及存储介质,用于提高事件抽取效率和准确率低,降低抽取成本,以及增加抽取结果的可解释性。
为了实现上述目的,本申请实施例采用下述技术方案:
第一方面,本申请实施例提供一种事件抽取方法,包括:
获取与目标对话文本的意图标签相关的主题信息,所述意图标签用于表示所述目标对话文本的用户意图,所述主题信息用于描述所述目标对话文本中与所述用户意图相关的内容主题,所述主题信息通过对具有所述意图标签的样本对话文本进行主题分析得到;
基于所述主题信息,从所述目标对话文本中确定关键句;
从所述关键句中抽取目标短语,以得到目标事件,所述目标短语包括具有指定依存关系的词语。
第二方面,本申请实施例提供一种事件抽取装置,包括:
获取单元,用于获取与目标对话文本的意图标签相关的主题信息,所述意图标签用于表示所述目标对话文本的用户意图,所述主题信息用于描述所述目标对话文本中与所述用户意图相关的内容主题,所述主题信息通过对具有所述意图标签的样本对话文本进行主题分析得到;
确定单元,用于基于所述主题信息,从所述目标对话文本中确定关键句;
抽取单元,用于从所述关键句中抽取目标短语,以得到目标事件,所述目标短语包括具有指定依存关系的词语。
第三方面,本申请实施例提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的事件抽取方法。
第四方面,本申请实施例提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的事件抽取方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:考虑到对话文本的用户意图往往与对话文本中的事件具有较强的关联性,用户意图往往通过对话文本中的内容主题反映,利用对话文本中与用户意图相关的主题信息从目标对话文本中确定关键句,使得该关键句隐含了与事件相关的重要信息,进而从关键句中抽取具有指定依存关系的词语生成目标事件,不仅可以提高事件抽取准确性,还使得从对话文本得到目标事件的事件抽取过程变得更加直观,进而增加目标对话文本与目标事件之间关系的可解释性,为后续业务分析和决策提供有价值参考;其次,由于具有相同用户意图的不同对话文本在内容主题上具有相似性,通过对具有相同用户意图的样本对话文本进行主题分析,可以确保主题信息与用户意图是强相关的,有利于进一步提高事件抽取准确性;另外,由于意图标签相较于事件标签更容易获得,所需的标注成本更低,且意图标签不会受事件表达多样性的影响,因而可以有效避免标注数据覆盖补全而导致事件错抽取、漏抽取的问题,进一步提高抽取准确性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种事件抽取方法的应用场景的示意图;
图2为本申请实施例提供的一种事件抽取方法的流程示意图;
图3为本申请实施例提供的一种主题关键词的获取方法的流程示意图;
图4为本申请实施例提供的一种事件抽取装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应理解,这样使用的数据在适当情况下可以互换,以便本申请实施例除了在这里图示或描述的那些以外的顺序实施。此外,本说明书和权利要求书中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。
传统的事件抽取方法通常需要大量的人工标注数据,比如大量样本文本以及为样本文本标注的事件,利用大量人工标注数据训练事件抽取模型。但是,人工标注成本高、费时费力,并且,由于事件表达的多样性和复杂性,人工标注数据难以覆盖所有情况,导致模型训练效果不佳,存在抽取不准确和漏抽取的问题;另外,由于事件抽取模型通常是一个“黑盒”,抽取结果不具有可解释性,对于后续业务分析和决策而言不具有参考价值。
有鉴于此,本申请实施例提供的一种事件抽取方法,考虑到意图标签相较于事件标签更容易标注,且不会受到事件表达多样性的影响,并且,对话文本的用户意图往往与对话文本中的事件具有较强的关联性,用户意图往往通过对话文本中的内容主题反映,利用与对话文本的意图标签相关的主题信息对对话文本进行事件抽取,不仅可以提高事件抽取准确性和效率,还使得从对话文本得到目标事件的事件抽取过程变得更加直观,进而增加事件抽取结果的可解释性,为后续业务分析和决策提供有价值参考;其次,还考虑到具有相同用户意图的不同对话文本在内容主题上具有相似性,通过对具有相同用户意图的样本对话文本进行主题分析,可以确保主题信息与用户意图是强相关的,有利于进一步提高事件抽取准确性。
应理解,本申请实施例提供的事件抽取方法可以由电子设备或安装在电子设备中的软件执行。此处所谓的电子设备可以包括终端设备,比如智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、智能手表、车载终端、飞行器等;或者,电子设备还可以包括服务器,比如独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
以下结合附图,详细说明本申请各实施例提供的技术方案。
首先结合图1,对本申请实施例提供的事件抽取方法的应用场景进行说明。应理解,本申请实施例提供的事件抽取方法应用于图1所示的场景只是一种示例性说明,并不应理解为对该方法的应用场景的限定。
在图1中,各说话人的终端设备1分别通过网络与服务器2通信连接,使得各说话人之间可通过终端设备1进行对话,比如用户与客服之间通过终端设备1进行对话。其中,对话形式可以例如包括但不限于语音、视频、文字等。
在不同说话人进行对话的过程中,服务器2可获取每次对话的对话文本数据并存储至对话数据库3中。实际应用中,若一次对话的对话形式为语音或者视频,服务器2可利用自动语音识别技术(Automatic Speech Recognition,ASR)的语音数据进行识别和转换,得到相应的对话文本。此外,为了满足业务需要,服务器2还可将每次对话的对话文本发送给业务平台,由业务平台根据说话人的意图,为对话文本标注相应的意图标签并返回给服务器2进行存储。
在需要进行事件抽取时,可从对话数据库3中获取待处理的对话文本和对话文本的意图标签,利用对话文本的意图标签对对话文本进行事件抽取并存储至事件库4中。由此,事件库4可作为各类业务脚本事件挖掘的数据源,即利用事件库4中的事件预测各类业务场景下的未知事件。
本申请实施例提供的事件抽取方案将详细描述对通话文本进行事件抽取的过程。
请参见图2,为本申请实施例提供的一种事件抽取方法的流程示意图,该方法包括如下步骤:
S202,获取与目标对话文本的意图标签相关的主题关键词。
目标对话文本的意图标签用于表示目标对话文本的用户意图。意图标签具有相关的主题信息,主题信息用于描述对话文本中与用户意图相关的内容主题。主题信息是通过对具有该意图标签的样本对话文本进行主题分析得到。具体地,主题信息可以包括与意图标签相关的主题关键词,主题关键词是从具有该意图标签的样本对话文本中提取到的、与意图标签相关的词语。
实际应用中,主题信息可从预先构建的映射关系表中查询得到,映射关系表中记录有多种意图标签各自相关的主题关键词,每种意图标签相关的主题关键词是预先通过对具有该意图标签的样本对话文本进行主题分析得到。示例地,表1示出了部分意图标签与主题信息之间的映射关系。
表1
为了确保主题信息能够客观、准确地描述目标对话文本中与用户意图相关的内容主题,在一种可选的实现方式中,如图3所示,主题信息可以通过如下方式获取得到:
S302,获取具有意图标签的多个样本对话文本。
S304,基于主题模型对各个样本对话文本进行主题分析,得到各个样本对话文本的主题分别信息。
样本对话文本的主题分布信息包括样本对话文本的内容主题及内容主题相关的词语。主题模型可以包括本领域常用的各种具有文本主题分析功能的模型,比如文档主题生成(Latent Dirichlet Allocation,LDA),本申请实施例对此不作限定。
S306,对意图标签和各个样本对话文本的主题分布信息进行相关性分析,以得到与意图标签相关的主题信息。
具体实施时,可通过各种方式对意图标签和各个样本对话文本的主题分布信息进行相关性分析,从各个样本对话文本的主题分别信息中筛选出与意图标签相关的主题分布信息,比如与意图标签相关的内容主题、词语等,进而基于筛选出的主题分布信息,确定与意图标签相关的主题信息。
可选地,为了提高主题信息与意图标签之间的相关性,上述S306可以包括如下步骤:
S361,对多个样本对话文本各自的内容主题进行汇总,得到意图标签对应的内容主题集合。
S362,按照内容主题,对多个样本对话文本各自的内容主题相关的词语进行汇总,得到内容主题集合中各个内容主题对应的词语集合。
例如,样本对话文本1和样本对话文本2均具有意图标签1,通过对这些样本对话文本进行分析,确定出样本对话文本1包括内容主题1和内容主题2,样本对话文本2包括内容主题1和内容主题3,样本对话文本1中与内容主题1相关的词语包括词语1和词语2,样本对话文本1中与内容主题2相关的词语包括词语3,样本对话文本2中与内容主题1相关的词语包括词语1和词语4,样本对话文本2中与内容主题3相关的词语包括词语5和词语6。进一步,对这些样本对话文本各自的内容主题进行汇总,可得到意图标签1对应的内容主题集合为{内容主题1,内容主题2,内容主题3},以及按照内容主题,对所有样本对话文本各自的内容主题相关的词语进行汇总,可得到内容主题1对应的词语集合为{词语1,词语2,词语4},内容主题2对应的词语集合为{词语3},内容主题3对应的词语集合为{词语5,词语6}。
S363,对各个内容主题对应的词语集合和意图标签进行相关性分析。
具体实施时,可将意图标签与各个内容主题对应的词语集合进行匹配,根据匹配结果,确定意图标签与各个内容主题之间的相关度。
更为具体地,针对每个内容主题,将表示意图标签与该内容主题对应的词语集合中的每个词语进行匹配,得到每个词语对应的匹配度;然后,对该内容主题对应的词语集合中所有词语对应的匹配度进行平均处理,即可得到意图标签与该内容主题之间的相关度。
实际应用中,在计算意图标签与词语之间的匹配度时,可分别对意图标签和词语进行编码,得到意图标签对应的标签向量和词语对应的词向量;然后,计算标签向量与词向量之间的余弦相似度,计算结果即为意图标签与词语之间的匹配度。
例如,假设意图标签“申请个人贷款”,该意图标签对应的内容主题集合包括内容主题1、内容主题2以及内容主题3,每个内容主题对应的词语集合如下所示:
内容主题1:“房贷”、“按揭”、“首付”、“月供”、“利率”
内容主题2:“车贷”、“车款”、“车辆”、“分期”、“还款”
内容主题3:“信用卡”、“额度”、“消费”、“还款”、“逾期”
通过将意图标签与各个内容主题对应的词语集合进行匹配,可得到意图标签与内容主题1之间的相关度为0.6,意图标签与内容主题2之间的相关度为0.3,意图标签与内容主题1之间的相关度为0.1。
S364,根据相关性分析结果,从内容主题集合中选取与意图标签相关的目标内容主题,并将目标内容主题对应的词语集合,作为主题信息。
具体实施时,可基于相关度,从内容主题集合中选取至少一个内容主题作为目标内容主题。
例如,继续沿用上面的示例,按照与意图标签之间的相关度对内容主题1~内容主题3进行排序,选取出相似度较高的内容主题1和内容主题2,作为目标内容主题,进而将内容主题1对应的词语集合和内容主题2对应的词语集合,作为与意图标签“申请个人贷款”相关的主题关键词。
本申请实施例示出了获取主题信息的一种实现方式。当然,应理解,主题信息还可通过其他方式获取,本申请实施例对此不作限定。
S204,基于主题信息,从目标对话文本中确定关键句。
关键句是指目标对话文本中能够准确反映与用户意图相关的内容主题的句子。由于对话文本的用户意图往往与对话文本中的事件具有较强的关联性,因而关键句隐含了与事件相关的重要信息。
本申请实施例中,可采用多种方式从目标对话文本中提取出关键句。
在一种可选的实现方式中,主题信息包括与意图标签相关的目标内容主题。相应地,上述S204可以包括如下步骤:S241a,对目标对话文本进行分句处理,得到多个句子;S242a,基于主题模型对各个句子进行主题分析,得到各个句子的主题分布信息,主题分布信息包括所对应的句子的内容主题;S243a,基于各个句子的主题分布信息,从多个句子中选取包含目标内容主题的句子,作为关键句。S242a的具体实现方式与上述S304的具体实现方式类似,不再赘述。
例如,与目标对话文本的意图标签相关的目标内容主题包括内容主题1和内容主题2,对话文本进行分句处理后,得到句子1、句子2和句子3。通过对各个句子进行主题分析,得到句子1包含内容主题1,句子2包含内容主题1和内容主题3,句子3包含内容主题3,那么,可将句子1和句子2作为关键句。
可以理解的是,以句子为粒度,通过对目标对话文本中各个句子进行意图分析,得到各个句子包含的内容主题,进而将包含与意图标签相关的目标内容主题的句子作为关键句,可以进一步提高关键句与目标内容主题之间的强相关性,为后续进行事件抽取提供可靠的数据支撑。
在一种可选的实现方式,上述S204可以包括如下步骤:对目标对话文本进行分句处理,得到多个句子;然后,从目标对话文本中提取与主题关键词匹配的句子,作为关键句。实际应用中,对于任一句子,若该句子中的任一个词语与主题关键词相匹配,则确定该句子与主题关键词相匹配。另外,在将句子与主题关键词进行匹配之前,还对句子进行分词、去停用词等预处理,以提高匹配效率和准确性。
例如,与目标对话文本的意图标签相关的主题关键词包括关键词1和关键词2,对话文本进行分句处理后,得到句子1、句子2和句子3。假设句子1中的词语与关键词1匹配,句子2中的词语与关键词2匹配,句子3中的词语与关键词1、关键词2均不匹配,那么,可确定句子1和句子2与主题关键词匹配,进而可将句子1和句子2作为关键句。
在另一种可选的实现方式中,上述S204可以包括如下步骤:S241b,对目标对话文本进行分句处理,得到多个句子;S242b,将各个句子中的词语与主题关键词进行匹配,以得到与主题关键词相匹配的候选句子;S243 b,对候选句子和目标对话文本进行相似性分析,根据相似性分析结果,从候选句子中确定关键句。在上述S243 b中,对句子和目标对话文本进行相似性分析,可通过本领域常用的各种分析方法实现,具体可根据实际需要进行选择,本申请实施例对此不作限定。
可选地,为了提高相关性分析结果的准确性,在上述S243 b中,可对多个句子进行编码,得到多个句向量,每个句向量对应一个句子;然后,对多个句向量进行平均处理,得到目标对话文本的文本向量;最后,基于文本向量和候选句子对应的句向量,确定候选句子与目标对话文本之间的相似度,将该相似度作为相似性分析结果。比如,将文本向量与候选句子对应的句向量之间的余弦相似度,作为候选句子与目标对话文本之间的相似度,进而得到相似性分析结果。
若某个候选句子与目标对话文本之间的相似度越大,则表明该候选句子越能够表达目标对话文本的语义,进而越能够准确反映与用户意图相关的内容主题。基于此,可从所有候选句子中,选取与目标对话文本之间的相似度较高的前N个候选句子作为关键句。其中,N为正整数,且N小于候选句子总数。
示例地,假设目标对话文本的意图标签为“申请个人贷款”,与该意图标签相关的主题关键词包括{贷款、借款、信用评估、贷款额度、放款、利率、还款方式、月供、利率、分期、车款},目标对话文本如下:
客户:您好,我想咨询一下贷款的问题。
客服:好的,请问您需要贷款的金额是多少呢?
客户:我需要贷款XX万元。
客服:好的,根据您的贷款需求,我们可以为您推荐两种方案,请您参考一下,第一种是n年的贷款期限,利率为yy%;第二种是m年的贷款期限,利率为zz%。请问您对这两种方案有什么疑问吗?
客户:我想了解一下这两种方案的还款方式和还款金额。
客服:好的,这两种方案的还款方式和还款金额我们可以为您详细解答一下,您需要什么具体的信息呢?
客户:我想知道每月需要还款多少。
客服:好的,针对这个问题,我们可以为您提供每月还款计算工具。
通过上述主题关键词,可从目标对话文本中提取出如下表2所示的候选句子,并通过对每个候选句子与目标对话文本进行相似性分析,可以得到每个候选句子与目标对话文本之间的相似度。
表2
按照与目标对话文本之间的相似度,对上述候选句子进行排序,可从中选取如下候选句子作为关键句:
关键句1:好的,请问您需要贷款的金额是多少呢?
关键句2:“我需要贷款XX万元。
关键句3:我想了解一下这两种方案的还款方式和还款金额。
关键句4:我想知道每月需要还款多少。
可以理解的是,以句子为粒度,先从目标对话文本中选取与主题关键词相匹配的句子作为候选句子,再从所有候选句子中选取与目标对话文本相关性高的候选句子作为关键句,可以进一步提高关键句与用户意图相关的内容主题之间的强相关性,为后续进行事件抽取提供可靠的数据支撑。
S206,从关键句中抽取目标短语,以得到目标事件。
目标短语包括具有指定依存关系的词语。
依存句法分析(Dependency Parsing,DP)是通过分析语言单位内成分之间的依存关系,揭示其句法结构。直观来讲,就是分析句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分的关系。由于依存句法分析可以快速、准确地分析出句子中各词语之间的依存关系,上述S206可以包括:对关键句进行依存句法分析,得到关键句中的词语之间的依存关系;从关键句中抽取具有主谓关系的至少两个词语进行组合,得到目标短语,以及基于目标短语生成目标事件。
更为具体地,通过对关键句进行依存句法分析,可以确定出关键句中各个词语所属的句子成分,比如主语、谓语、宾语、定语、状语、补语等;进一步,基于各个词语所属的句子成分,确出这些词语之间的依存关系,比如动宾关系、主谓关系等;然后,从关键句中抽取具有指定依存关系的多个词语组成目标短语,该目标短语即可作为目标事件。
指定依存关系可以根据实际需要进行设置,本申请实施例对此不作限定。通过对大量历史对话文本进行分析发现,动词和它的修饰语或补语构成的具有主谓关系的短语,往往可以用来描述事件的具体行为和属性,是提取事件的重要内容之一。例如,对话文本“我要看电影”中具有主谓关系的“看”和“电影”构成的短语,能够准确表达出对话文本中的事件为要看电影;又如,对话文本“给我查下我的余额还有多少”中具有主谓关系的词语“查”和“余额”构成的短语,能够准确表达出对话文本中的事件为查余额。
基于此,在一种可选的实现方式中,指定依存关系可以包括主谓关系。相应地,上述S206可以包括:对关键句进行依存句法分析,得到关键句中的词语之间的依存关系;从关键句中抽取具有主谓关系的至少两个词语进行组合,得到目标短语,以及基于目标短语生成目标事件。
实际应用中,可将目标短语作为目标事件,或者,也可以将目标短语与预设事件库中的事件进行匹配,将与目标短语匹配的事件作为目标事件。
示例地,以通过表1确定的关键句1~关键句4为例,对于关键句1,通过对关键句1进行依存句法分析,可以得到具有主谓关系的词语“需要贷款”和“金额”,经组合后得到目标短语“需要贷款-金额”;进一步,可将该目标短语作为目标事件,或者,也可以将该目标短语与事件库中的事件进行匹配,进而得到与目标短语相匹配的目标事件“咨询贷款问题”。
对于关键句2,通过对关键句2进行依存句法分析,可以得到具有主谓关系的词语“需要贷款”和“XX万元”,经组合后得到目标短语“需要贷款XX万元”;进一步,可将该目标短语作为目标事件,或者,也可以将该目标短语与事件库中的事件进行匹配,进而得到与目标短语相匹配的目标事件“申请贷款XX万元”。
对于关键句3,通过对关键句3进行依存句法分析,可以得到具有主谓关系的词语“了解”和“还款方式和还款金额”,经组合后得到目标短语“了解还款方式和还款金额”;进一步,可将该目标短语作为目标事件,或者,也可以将该目标短语与事件库中的事件进行匹配,进而得到与目标短语相匹配的目标事件“咨询还款方式和还款金额”。
对于关键句4,通过对关键句4进行依存句法分析,可以得到具有主谓关系的词语“每月需还款”和“多少”,经组合后得到目标短语“每月需还款多少”;进一步,可将该目标短语作为目标事件,或者,也可以将该目标短语与事件库中的事件进行匹配,进而得到与目标短语相匹配的目标事件“咨询每月还款金额”。
本申请实施例提供的事件抽取方法,考虑到对话文本的用户意图往往与对话文本中的事件具有较强的关联性,用户意图往往通过对话文本中的内容主题反映,利用对话文本中与用户意图相关的主题信息从目标对话文本中确定关键句,使得该关键句隐含了与事件相关的重要信息,进而从关键句中抽取具有指定依存关系的词语生成目标事件,不仅可以提高事件抽取准确性,还使得从对话文本得到目标事件的事件抽取过程变得更加直观,进而增加目标对话文本与目标事件之间关系的可解释性,为后续业务分析和决策提供有价值参考;其次,由于具有相同用户意图的不同对话文本在内容主题上具有相似性,通过对具有相同用户意图的样本对话文本进行主题分析,可以确保主题信息与用户意图是强相关的,有利于进一步提高事件抽取准确性;另外,由于意图标签相较于事件标签更容易获得,所需的标注成本更低,且意图标签不会受事件表达多样性的影响,因而可以有效避免标注数据覆盖补全而导致事件错抽取、漏抽取的问题,进一步提高抽取准确性。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本申请实施例还提供一种事件抽取装置。请参见图4,为本申请实施例提供的一种事件抽取装置400的结构示意图,该装置400包括:获取单元410、确定单元420和抽取单元430。
获取单元410,用于获取与目标对话文本的意图标签相关的主题信息,所述意图标签用于表示所述目标对话文本的用户意图,所述主题信息用于描述所述目标对话文本中与所述用户意图相关的内容主题,所述主题信息通过对具有所述意图标签的样本对话文本进行主题分析得到。
确定单元420,用于基于所述主题信息,从所述目标对话文本中确定关键句。
抽取单元430,用于从所述关键句中抽取目标短语作为目标事件,所述目标短语包括具有指定依存关系的词语。
可选地,所述主题信息包括主题关键词;
所述确定单元420具体用于:
分句子单元,用于对所述目标对话文本进行分句处理,得到多个句子;
匹配子单元,用于将各个句子中的词语与所述主题关键词进行匹配,以得到与所述主题关键词相匹配的候选句子;
确定子单元,用于对所述候选句子和所述目标对话文本进行相似性分析,根据相似性分析结果,从所述候选句子中确定关键句。
可选地,所述确定子单元具体用于:
对所述多个句子进行编码,得到多个句向量,每个句向量对应一个句子;
对所述多个句向量进行平均处理,得到所述目标对话文本的文本向量;
基于所述候选句子对应的句向量和所述文本向量,确定所述候选句子与所述目标对话文本之间的相似度,将所述相似度作为所述相似性分析结果。
可选地,所述主题信息包括与所述意图标签相关的目标内容主题;
所述确定单元420具体用于:
对所述目标对话文本进行分句处理,得到多个句子;
基于主题模型对各个句子进行主题分析,得到各个句子的主题分布信息,所述主题分布信息包括所对应的句子的内容主题;
基于各个句子的主题分布信息,从所述多个句子中选取包含所述目标内容主题的句子,作为所述关键句。
可选地,所述指定依存关系包括主谓关系;
所述抽取单元430包括:
句法分析子单元,用于对所述关键句进行依存句法分析,得到所述关键句中的词语之间的依存关系;
组合子单元,用于从所述关键句中抽取具有主谓关系的至少两个词语进行组合,得到所述目标短语;
生成子单元,用于基于所述目标短语,生成目标事件。
可选地,所述获取单元410包括:
获取子单元,用于获取具有所述意图标签的多个样本对话文本;
主题分析子单元,用于基于主题模型对各个样本对话文本进行主题分析,得到各个样本对话文本的主题分布信息,所述主题分布信息包括所对应的样本对话文本的内容主题及内容主题相关的词语;
相关性分析子单元,用于对所述意图标签和各个样本对话文本的主题分布信息进行相关性分析,以得到与所述意图标签相关的主题信息。
可选地,所述相关性分析子单元具体用于:
对所述多个样本对话文本各自的内容主题进行汇总,得到所述意图标签对应的内容主题集合;
按照内容主题,对所述多个样本对话文本各自的内容主题相关的词语进行汇总,得到所述内容主题集合中各个内容主题对应的词语集合;
对各个内容主题对应的词语集合和所述意图标签进行相关性分析,根据相关性分析结果,从所述内容主题集合中选取与所述意图标签相关的目标内容主题;
将所述目标内容主题对应的词语集合,作为所述主题信息。
可选地,所述相关性分析子单元对各个内容主题对应的词语集合和所述意图标签进行相关性分析,包括:将所述意图标签与各个内容主题对应的词语集合进行匹配,根据匹配结果,确定所述意图标签与各个内容主题之间的相关度;
所述相关性分析子单元根据相关性分析结果,从所述内容主题集合中选取与所述意图标签相关的目标内容主题,包括:
基于所述相关度,从所述内容主题集合中选取至少一个内容主题作为目标内容主题。
显然,本申请实施例提供的事件抽取装置能够作为图2所示的事件抽取方法的执行主体,例如图2所示的事件抽取方法中,步骤S202可由图4所示的事件抽取装置中的获取单元410执行,步骤S204可由图4所示的事件抽取装置中的确定单元420执行,步骤S206可由图4所示的事件抽取装置中的抽取单元430执行。
根据本申请的另一个实施例,图4所示的事件抽取装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其他实施例中,事件抽取装置也可以包括其他单元,在实际应用中,这些功能也可以由其他单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CentralProcessing Unit,CPU)、随机存取存储介质(Random Access Memory,RAM)、只读存储介质(Read-Only Memory,ROM)等处理元件和存储元件的例如计算机的通用计算设备上,运行能够执行如图2所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图4中所示的事件抽取装置,以及来实现本申请实施例的事件抽取方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质转载于电子设备中,并在其中运行。
图5是本申请的一个实施例电子设备的结构示意图。请参见图5,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成事件抽取装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取与目标对话文本的意图标签相关的主题信息,所述意图标签用于表示所述目标对话文本的用户意图,所述主题信息用于描述所述目标对话文本中与所述用户意图相关的内容主题,所述主题信息通过对具有所述意图标签的样本对话文本进行主题分析得到;
基于所述主题信息,从所述目标对话文本中确定关键句;
从所述关键句中抽取目标短语,以得到目标事件,所述目标短语包括具有指定依存关系的词语。
上述如本申请图2所示实施例揭示的事件抽取装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图2的方法,并实现事件抽取装置在图2、图3所示实施例的功能,本申请实施例在此不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图2所示实施例的方法,并具体用于执行以下操作:
获取与目标对话文本的意图标签相关的主题信息,所述意图标签用于表示所述目标对话文本的用户意图,所述主题信息用于描述所述目标对话文本中与所述用户意图相关的内容主题,所述主题信息通过对具有所述意图标签的样本对话文本进行主题分析得到;
基于所述主题信息,从所述目标对话文本中确定关键句;
从所述关键句中抽取目标短语,以得到目标事件,所述目标短语包括具有指定依存关系的词语。
总之,以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (10)
1.一种事件抽取方法,其特征在于,包括:
获取与目标对话文本的意图标签相关的主题信息,所述意图标签用于表示所述目标对话文本的用户意图,所述主题信息用于描述所述目标对话文本中与所述用户意图相关的内容主题,所述主题信息通过对具有所述意图标签的样本对话文本进行主题分析得到;
基于所述主题信息,从所述目标对话文本中确定关键句;
从所述关键句中抽取目标短语,以得到目标事件,所述目标短语包括具有指定依存关系的词语。
2.根据权利要求1所述的方法,其特征在于,所述主题信息包括主题关键词;
所述基于所述主题信息,从所述目标对话文本中确定关键句,包括:
对所述目标对话文本进行分句处理,得到多个句子;
将各个句子中的词语与所述主题关键词进行匹配,以得到与所述主题关键词相匹配的候选句子;
对所述候选句子和所述目标对话文本进行相似性分析,根据相似性分析结果,从所述候选句子中确定关键句。
3.根据权利要求2所述的方法,其特征在于,所述对所述候选句子和所述目标对话文本进行相似性分析,包括:
对所述多个句子进行编码,得到多个句向量,每个句向量对应一个句子;
对所述多个句向量进行平均处理,得到所述目标对话文本的文本向量;
基于所述候选句子对应的句向量和所述文本向量,确定所述候选句子与所述目标对话文本之间的相似度,将所述相似度作为所述相似性分析结果。
4.根据权利要求1所述的方法,其特征在于,所述主题信息包括与所述意图标签相关的目标内容主题;
所述基于所述主题信息,从所述目标对话文本中确定关键句,包括:
对所述目标对话文本进行分句处理,得到多个句子;
基于主题模型对各个句子进行主题分析,得到各个句子的主题分布信息,所述主题分布信息包括所对应的句子的内容主题;
基于各个句子的主题分布信息,从所述多个句子中选取包含所述目标内容主题的句子,作为所述关键句。
5.根据权利要求1所述的方法,其特征在于,所述指定依存关系包括主谓关系;
所述从所述关键句中抽取目标短语,以得到目标事件,包括:
对所述关键句进行依存句法分析,得到所述关键句中的词语之间的依存关系;
从所述关键句中抽取具有主谓关系的至少两个词语进行组合,得到所述目标短语;
基于所述目标短语,生成目标事件。
6.根据权利要求1所述的方法,其特征在于,所述主题信息通过如下方式获取:
获取具有所述意图标签的多个样本对话文本;
基于主题模型对各个样本对话文本进行主题分析,得到各个样本对话文本的主题分布信息,所述主题分布信息包括所对应的样本对话文本的内容主题及内容主题相关的词语;
对所述意图标签和各个样本对话文本的主题分布信息进行相关性分析,以得到与所述意图标签相关的主题信息。
7.根据权利要求6所述的方法,其特征在于,所述对所述意图标签和各个样本对话文本的主题分布信息进行相关性分析,包括:
对所述多个样本对话文本各自的内容主题进行汇总,得到所述意图标签对应的内容主题集合;
按照内容主题,对所述多个样本对话文本各自的内容主题相关的词语进行汇总,得到所述内容主题集合中各个内容主题对应的词语集合;
对各个内容主题对应的词语集合和所述意图标签进行相关性分析,根据相关性分析结果,从所述内容主题集合中选取与所述意图标签相关的目标内容主题;
将所述目标内容主题对应的词语集合,作为所述主题信息。
8.根据权利要求7所述的方法,其特征在于,所述对各个内容主题对应的词语集合和所述意图标签进行相关性分析,包括:
将所述意图标签与各个内容主题对应的词语集合进行匹配,根据匹配结果,确定所述意图标签与各个内容主题之间的相关度;
所述根据相关性分析结果,从所述内容主题集合中选取与所述意图标签相关的目标内容主题,包括:
基于所述相关度,从所述内容主题集合中选取至少一个内容主题作为目标内容主题。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至8中任一项所述的事件抽取方法。
10.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至8中任一项所述的事件抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311047572.0A CN117952097A (zh) | 2023-08-18 | 2023-08-18 | 事件抽取方法、相关设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311047572.0A CN117952097A (zh) | 2023-08-18 | 2023-08-18 | 事件抽取方法、相关设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117952097A true CN117952097A (zh) | 2024-04-30 |
Family
ID=90794989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311047572.0A Pending CN117952097A (zh) | 2023-08-18 | 2023-08-18 | 事件抽取方法、相关设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117952097A (zh) |
-
2023
- 2023-08-18 CN CN202311047572.0A patent/CN117952097A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344406B (zh) | 词性标注方法、装置和电子设备 | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
CN108875059B (zh) | 用于生成文档标签的方法、装置、电子设备和存储介质 | |
CN111339751A (zh) | 一种文本关键词处理方法、装置及设备 | |
CN109858010A (zh) | 领域新词识别方法、装置、计算机设备和存储介质 | |
US20220261545A1 (en) | Systems and methods for producing a semantic representation of a document | |
US20200012650A1 (en) | Method and apparatus for determining response for user input data, and medium | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN110569502A (zh) | 一种违禁广告语的识别方法、装置、计算机设备及存储介质 | |
CN107368489B (zh) | 一种资讯数据处理方法及装置 | |
CN113254620B (zh) | 基于图神经网络的应答方法、装置、设备及存储介质 | |
CN111767714B (zh) | 一种文本通顺度确定方法、装置、设备及介质 | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
CN114547257B (zh) | 类案匹配方法、装置、计算机设备及存储介质 | |
CN111291551B (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN115134660A (zh) | 视频剪辑方法、装置、计算机设备及存储介质 | |
CN118113852A (zh) | 一种金融问题解答方法、装置、设备、系统、介质及产品 | |
CN111783425B (zh) | 基于句法分析模型的意图识别方法及相关装置 | |
CN111737607B (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
CN117216214A (zh) | 一种问答抽取的生成方法、装置、设备及介质 | |
CN117975942A (zh) | 语音识别模型的训练方法、语音识别方法及相关装置 | |
CN110705308B (zh) | 语音信息的领域识别方法、装置、存储介质及电子设备 | |
CN117131155A (zh) | 多类目识别方法、装置、电子设备及储存介质 | |
CN116028626A (zh) | 文本匹配方法、装置、存储介质以及电子设备 | |
CN112100364A (zh) | 文本语义理解方法和模型训练方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |