CN113239688B - 一种条件实体提取方法 - Google Patents

一种条件实体提取方法 Download PDF

Info

Publication number
CN113239688B
CN113239688B CN202110562087.1A CN202110562087A CN113239688B CN 113239688 B CN113239688 B CN 113239688B CN 202110562087 A CN202110562087 A CN 202110562087A CN 113239688 B CN113239688 B CN 113239688B
Authority
CN
China
Prior art keywords
entity
words
text
types
conditional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110562087.1A
Other languages
English (en)
Other versions
CN113239688A (zh
Inventor
王丙栋
游世学
朱江平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Huilian Technology Co ltd
Original Assignee
Beijing Zhongke Huilian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Huilian Technology Co ltd filed Critical Beijing Zhongke Huilian Technology Co ltd
Priority to CN202110562087.1A priority Critical patent/CN113239688B/zh
Publication of CN113239688A publication Critical patent/CN113239688A/zh
Application granted granted Critical
Publication of CN113239688B publication Critical patent/CN113239688B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种条件实体提取方法,接收待提取实体的文本及其人机交互上下文语境信息,从接收到的文本中提取实体词,并标注实体类型,对提取到的实体词,根据其所在的文本判断语境约束条件,识别实体用途,对实体用途未确定的实体词,根据其人机交互上下文语境信息判断语境约束条件,识别实体用途,封装实体词及其实体类型及实体用途,得到条件实体。本发明提供的条件实体提取方法,能够提取条件实体,从而得到实体类型和实体用途信息,能够显著提高自然语言理解词槽填充、智能填单表单项填充的准确率,尤其适用于需要同时提取多个相同实体类型不同实体用途的实体词的应用场景。

Description

一种条件实体提取方法
技术领域
本发明涉及文本提取技术领域,特别是涉及一种条件实体提取方法。
背景技术
计算机自然语言处理中的实体提取技术广泛应用于人机对话、智能填单、信息抽取等系统中。目前的实体提取技术,包括深度学习模型序列标注方法、词库匹配方法、正则表达式规则匹配方法,主要用于从给定文本中找出实体词及出现位置,并标注实体类型,而欠缺识别实体用途的能力。例如在人机对话订票场景中,在某一轮用户回复的是“北京”,现有的实体提取技术很容易找出实体词“北京”,并确定实体类型是“城市”,至于“北京”是“出发城市”还是“目的城市”,缺少有效的技术手段来进行识别。因此,设计一种条件实体提取方法是十分有必要的。
发明内容
本发明的目的是提供一种条件实体提取方法,能够提取条件实体,从而得到实体类型和实体用途信息,能够显著提高自然语言理解词槽填充、智能填单表单项填充的准确率,尤其适用于需要同时提取多个相同实体类型不同实体用途的实体词的应用场景。
为实现上述目的,本发明提供了如下方案:
一种条件实体提取方法,应用于条件实体提取系统,所述系统包括条件实体提取模块及条件实体管理配置模块,所述条件实体提取模块用于提取实体词、标注实体类型及判定实体用途,所述条件实体管理配置模块,用于实现实体类型的维护管理、实体类型的实体用途的维护管理及实体用途的判定规则的配置;
所述方法包括如下步骤:
步骤1:接收待提取实体的文本及其人机交互上下文语境信息;
步骤2:从步骤1接收到的文本中提取实体词,并标注实体类型;
步骤3:对步骤2中提取到的实体词,根据其所在的文本判断语境约束条件,识别实体用途;
步骤4:对实体用途未确定的实体词,根据其人机交互上下文语境信息判断语境约束条件,识别实体用途;
步骤5:封装实体词及其实体类型及实体用途,得到条件实体。
可选的,步骤1中,接收待提取实体的文本及其人机交互上下文语境信息,具体为:
根据用户的输入信息,生成待提取实体的文本及其人机交互上下文语境信息,其中,将优先级别高的系统所需实体词排在前面,在后续的人机交互过程中,循环接收用户的输入信息,实时更新待提取实体的文本及其人机交互上下文语境信息,并调整系统所需实体词的优先级,将优先级别高的系统所需实体词排在前面。
可选的,步骤2中,从步骤1接收到的文本中提取实体词,并标注实体类型,具体为:
通过深度学习模型序列标注方法、词库匹配方法及规则匹配方法从接收到的文本中提取实体词,并标注实体类型。
可选的,步骤3中,对步骤2中提取到的实体词,根据其所在的文本判断语境约束条件,识别实体用途,具体包括如下步骤:
S301:获取步骤2中提取得到的实体词及其实体类型、位置和所在的文本;
S302:根据实体类型获取实体词的候选实体用途,并获取候选实体用途的判定规则;
S303:判断实体词在所在文本中是否满足候选实体用途的判定规则,若满足规则,则设置实体词的实体用途为当前候选实体用途。
可选的,步骤4中,对实体用途未确定的实体词,根据其上下文语境信息判断语境约束条件,识别实体用途,具体包括如下步骤:
S401:获取步骤3中未能确定实体用途的实体词及其实体类型、位置和人机交互上下文语境信息;
S402:从人机交互上下文语境信息中获取系统当前所需实体词的实体类型和实体用途;
S403:判断未能确定实体用途的实体词的实体类型是否存在于系统当前所需实体词的实体类型中,若存在,则设置实体词的实体用途为系统当前所需实体词的实体类型对应的第一个实体用途。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供的条件实体提取方法,与现有的实体提取方法相比,能够得到实体类型及实体用途信息,能够显著提高自然语言理解词槽填充、智能填单表单项填充的准确率,尤其适用于需要同时提取多个相同实体类型不同实体用途的实体词的应用场景;该方法应用于一种条件实体提取系统,该系统包括条件实体提取模块及条件实体管理配置模块,所述条件实体提取模块用于提取实体词、标注实体类型、通过判定规则及人机交互上下文语境信息判定实体用途,所述条件实体管理配置模块用于实现实体类型的维护管理、实体类型的实体用途的维护管理及实体用途的判定规则的配置;该方法在提取实体词并确定实体类型之外,从实体词所在的语境中,判断语境约束条件,识别实体用途,其中,通过对判定规则对提取得到的实体词进行判定,识别实体用途,通过人机交互上下文语境信息对使用判定规则不能识别实体用途的实体词进行判定,识别实体用途,最后将封装实体词及其实体类型和实体用途,得到条件实体,该条件实体同时具备实体类型和实体用途信息,能够显著提高自然语言理解词槽填充、智能填单表单项填充的准确率,尤其适用于需要同时提取多个相同实体类型不同实体用途的实体词的应用场景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例条件实体提取方法流程示意图;
图2为利用判定规则识别实体用途的方法流程示意图;
图3为利用人机交互上下文语境信息识别实体用途的方法流程示意图;
图4为以订票为例的条件实体提取示意图;
图5为条件实体提取系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种条件实体提取方法,能够提取条件实体,从而得到实体类型和实体用途信息,能够显著提高自然语言理解词槽填充、智能填单表单项填充的准确率,尤其适用于需要同时提取多个相同实体类型不同实体用途的实体词的应用场景。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1-5所示,本发明实施例提供的条件实体提取方法,应用于条件实体提取系统,如图5所示,所述系统包括条件实体提取模块及条件实体管理配置模块,所述条件实体提取模块用于提取实体词、标注实体类型及通过判定规则及人机交互上下文语境信息判定实体用途,所述条件实体管理配置模块,用于实现实体类型的维护管理、实体类型的实体用途的维护管理及实体用途的判定规则的配置,能够为条件实体提取模块提供实体类型、实体类型与实体用途的关系及实体用途的判定规则;
如图1所示,所述方法包括如下步骤:
步骤1:接收待提取实体的文本及其人机交互上下文语境信息;
步骤2:从步骤1接收到的文本中提取实体词,并标注实体类型;
步骤3:对步骤2中提取到的实体词,根据其所在的文本判断语境约束条件,识别实体用途;
步骤4:对实体用途未确定的实体词,根据其人机交互上下文语境信息判断语境约束条件,识别实体用途;
步骤5:封装实体词及其实体类型及实体用途,得到条件实体。
其中,步骤1中,接收待提取实体的文本及其人机交互上下文语境信息,具体为:
根据用户的输入信息,生成待提取实体的文本及其人机交互上下文语境信息,其中,将优先级别高的系统所需实体词排在前面,在后续的人机交互过程中,循环接收用户的输入信息,实时更新待提取实体的文本及其人机交互上下文语境信息,并调整系统所需实体词的优先级,将优先级别高的系统所需实体词排在前面。
步骤2中,从步骤1接收到的文本中提取实体词,并标注实体类型,具体为:
通过深度学习模型序列标注方法、词库匹配方法及规则匹配方法从接收到的文本中提取实体词,并标注实体类型。
步骤3中,对步骤2中提取到的实体词,根据其所在的文本判断语境约束条件,识别实体用途,如图2所示,具体包括如下步骤:
S301:获取步骤2中提取得到的实体词及其实体类型、位置和所在的文本;
S302:根据实体类型获取实体词的候选实体用途,并获取候选实体用途的判定规则;
S303:判断实体词在所在文本中是否满足候选实体用途的判定规则,若满足规则,则设置实体词的实体用途为当前候选实体用途。
步骤4中,对实体用途未确定的实体词,根据其上下文语境信息判断语境约束条件,识别实体用途,如图3所示,具体包括如下步骤:
S401:获取步骤3中未能确定实体用途的实体词及其实体类型、位置和人机交互上下文语境信息;
S402:从人机交互上下文语境信息中获取系统当前所需实体词的实体类型和实体用途;
S403:判断未能确定实体用途的实体词的实体类型是否存在于系统当前所需实体词的实体类型中,若存在,则设置实体词的实体用途为系统当前所需实体词的实体类型对应的第一个实体用途。
如图4所示,以订票为实施例,说明上述方法,用户输入“我要订票”之后,系统识别订票意图,生成当前上下文语境信息,包括所需的实体类型为“城市”及实体用途为“目的城市”的实体、实体类型为“城市”及实体用途为“出发城市”的实体、实体类型为“时间”及实体用途为“出发时间”的实体,其中优先级高的系统所需实体词排在前面,在后续的人机交互过程中,循环接收用户输入并更新上下文语境信息,调整系统所需实体词的优先级;
通过深度学习模型序列标注方法、词库匹配方法、规则匹配方法提取并标注实体词,当用户输入“我从北京出发”后,系统提取实体类型“城市”的实体词“北京”,当用户输入“上海”后,系统提取实体类型“城市”的实体词“上海”,当用户输入“明天”后,系统提取实体类型“时间”的实体词“明天”;
对于提取到的实体词及其实体类型,根据实体类型获取实体词的候选实体用途,并获取候选实体用途的判定规则,然后判断实体词在所在文本中是否满足候选实体用途的判定规则,如果满足,则设置实体词的实体用途为当前候选实体用途,系统接收用户输入“我从北京出发”提取到实体类型“城市”的实体词“北京”后,根据实体用途“出发城市”的规则“从(@城市)(出发|走)”,替换规则中的实体类型表达式“@城市”为“北京”得到正则表达式“从(北京)(出发|走)”,命中用户输入文本中的片段“从北京出发”,识别“北京”的实体用途为“出发城市”;
对于提取到的实体用途未确定的实体词,从人机交互上下文语境信息中获取系统当前所需实体词的实体类型和实体用途,判断实体词的实体类型是否存在于系统当前所需的实体类型中,如果存在于,则设置实体词的实体用途为所需实体类型对应的第一个实体用途,系统接收用户输入“上海”提取到实体类型“城市”的实体词“上海”后,从上下文语境信息中,获取系统当前所需实体词的实体类型“城市”以及对应的第一个实体用途“目的城市”,设置“上海”的实体用途为“目的城市”;
封装实体词及其实体类型和实体用途信息,得到条件实体,经过多轮人机交互之后,系统从用户输入的“我从北京出发”、“上海”、“明天”文本中,提取到条件实体“北京”及其实体类型“城市”和实体用途“出发城市”、条件实体“上海”及其实体类型“城市”和实体用途“目的城市”、条件实体“明天”及其实体类型“时间”和实体用途“出发时间”。
本发明提供的条件实体提取方法,与现有的实体提取方法相比,能够得到实体类型及实体用途信息,能够显著提高自然语言理解词槽填充、智能填单表单项填充的准确率,尤其适用于需要同时提取多个相同实体类型不同实体用途的实体词的应用场景;该方法应用于一种条件实体提取系统,该系统包括条件实体提取模块及条件实体管理配置模块,所述条件实体提取模块用于提取实体词、标注实体类型、通过判定规则及人机交互上下文语境信息判定实体用途,所述条件实体管理配置模块用于实现实体类型的维护管理、实体类型的实体用途的维护管理及实体用途的判定规则的配置;该方法在提取实体词并确定实体类型之外,从实体词所在的语境中,判断语境约束条件,识别实体用途,其中,通过对判定规则对提取得到的实体词进行判定,识别实体用途,通过人机交互上下文语境信息对使用判定规则不能识别实体用途的实体词进行判定,识别实体用途,最后将封装实体词及其实体类型和实体用途,得到条件实体,该条件实体同时具备实体类型和实体用途信息,能够显著提高自然语言理解词槽填充、智能填单表单项填充的准确率,尤其适用于需要同时提取多个相同实体类型不同实体用途的实体词的应用场景。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (4)

1.一种条件实体提取方法,其特征在于,应用于条件实体提取系统,所述系统包括条件实体提取模块及条件实体管理配置模块,所述条件实体提取模块用于提取实体词、标注实体类型及判定实体用途,所述条件实体管理配置模块,用于实现实体类型的维护管理、实体类型的实体用途的维护管理及实体用途的判定规则的配置;
所述方法包括如下步骤:
步骤1:接收待提取实体的文本及其人机交互上下文语境信息;
步骤2:从步骤1接收到的文本中提取实体词,并标注实体类型;
步骤3:对步骤2中提取到的实体词,根据其所在的文本判断语境约束条件,识别实体用途;
步骤4:对实体用途未确定的实体词,根据其人机交互上下文语境信息判断语境约束条件,识别实体用途,具体包括如下步骤:
S401:获取步骤3中未能确定实体用途的实体词及其实体类型、位置和人机交互上下文语境信息;
S402:从人机交互上下文语境信息中获取系统当前所需实体词的实体类型和实体用途;
S403:判断未能确定实体用途的实体词的实体类型是否存在于系统当前所需实体词的实体类型中,若存在于,则设置实体词的实体用途为系统当前所需实体词的实体类型对应的第一个实体用途,其中,第一个实体用途指系统当前所需实体词的实体用途;
步骤5:封装实体词及其实体类型及实体用途,得到条件实体。
2.根据权利要求1所述的条件实体提取方法,其特征在于,步骤1中,接收待提取实体的文本及其人机交互上下文语境信息,具体为:
根据用户的输入信息,生成待提取实体的文本及其人机交互上下文语境信息,其中,将优先级别高的系统所需实体排在前面,在后续的人机交互过程中,循环接收用户的输入信息,实时更新待提取实体的文本及其人机交互上下文语境信息,并调整系统所需的优先级,将优先级别高的系统所需实体排在前面。
3.根据权利要求1所述的条件实体提取方法,其特征在于,步骤2中,从步骤1接收到的文本中提取实体词,并标注实体类型,具体为:
通过深度学习模型序列标注方法、词库匹配方法及规则匹配方法从接收到的文本中提取实体词,并标注实体类型。
4.根据权利要求3所述的条件实体提取方法,其特征在于,步骤3中,对步骤2中提取到的实体词,根据其所在的文本判断语境约束条件,识别实体用途,具体包括如下步骤:
S301:获取步骤2中提取得到的实体词及其实体类型、位置和所在的文本;
S302:根据实体类型获取实体词的候选实体用途,并获取候选实体用途的判定规则;
S303:判断实体词在所在文本中是否满足候选实体用途的判定规则,若满足规则,则设置实体词的实体用途为当前候选实体用途。
CN202110562087.1A 2021-05-24 2021-05-24 一种条件实体提取方法 Active CN113239688B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110562087.1A CN113239688B (zh) 2021-05-24 2021-05-24 一种条件实体提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110562087.1A CN113239688B (zh) 2021-05-24 2021-05-24 一种条件实体提取方法

Publications (2)

Publication Number Publication Date
CN113239688A CN113239688A (zh) 2021-08-10
CN113239688B true CN113239688B (zh) 2022-04-08

Family

ID=77138360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110562087.1A Active CN113239688B (zh) 2021-05-24 2021-05-24 一种条件实体提取方法

Country Status (1)

Country Link
CN (1) CN113239688B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111145052A (zh) * 2019-12-26 2020-05-12 北京法意科技有限公司 司法文书的结构化分析方法及系统
CN111723574A (zh) * 2020-07-09 2020-09-29 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质
CN112131885A (zh) * 2019-06-24 2020-12-25 北京猎户星空科技有限公司 语义识别方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943998B (zh) * 2017-12-05 2021-05-11 竹间智能科技(上海)有限公司 一种基于知识图谱的人机对话控制系统及方法
US11120059B2 (en) * 2018-06-27 2021-09-14 Adobe Inc. Conversational query answering system
CN111026886B (zh) * 2019-12-26 2023-05-02 成都航天科工大数据研究院有限公司 一种针对专业场景的多轮对话处理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131885A (zh) * 2019-06-24 2020-12-25 北京猎户星空科技有限公司 语义识别方法、装置、电子设备及存储介质
CN111145052A (zh) * 2019-12-26 2020-05-12 北京法意科技有限公司 司法文书的结构化分析方法及系统
CN111723574A (zh) * 2020-07-09 2020-09-29 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中文分词与命名实体识别的联合学习;黄晓辉 等;《国防科技大学学报》;20210228;第43卷(第1期);第86-94页 *

Also Published As

Publication number Publication date
CN113239688A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN112100349A (zh) 一种多轮对话方法、装置、电子设备及存储介质
CN110781663B (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN106383814A (zh) 一种英文社交媒体短文本分词方法
CN110738997B (zh) 一种信息修正方法、装置、电子设备及存储介质
KR102196508B1 (ko) 비지도 학습을 통한 개체명 사전 구축 방법 및 시스템
CN108205524B (zh) 文本数据处理方法和装置
US20230195998A1 (en) Sample generation method, model training method, trajectory recognition method, device, and medium
CN114416976A (zh) 文本标注方法、装置及电子设备
CN111178080B (zh) 一种基于结构化信息的命名实体识别方法及系统
CN114490998A (zh) 文本信息的抽取方法、装置、电子设备和存储介质
CN112989043A (zh) 指代消解方法、装置、电子设备及可读存储介质
CN113239688B (zh) 一种条件实体提取方法
CN111597302B (zh) 文本事件的获取方法、装置、电子设备及存储介质
CN112560425A (zh) 模板生成方法、装置、电子设备及存储介质
CN117290515A (zh) 文本标注模型的训练方法、文生图方法及装置
CN112487817A (zh) 命名实体识别模型训练方法、样本标注方法、装置及设备
CN114996494A (zh) 图像处理方法、装置、电子设备及存储介质
CN115641360A (zh) 基于人工智能的电池检测方法、装置和电子设备
CN115909376A (zh) 文本识别方法、文本识别模型训练方法、装置及存储介质
CN114417862A (zh) 文本匹配方法、文本匹配模型的训练方法和装置
CN114647727A (zh) 应用于实体信息识别的模型训练方法、装置和设备
CN114417891A (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
CN113051926A (zh) 文本抽取方法、设备和存储介质
CN112989805A (zh) 一种文本检测方法、装置、设备及存储介质
CN113204616A (zh) 文本抽取模型的训练与文本抽取的方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant