CN110888940B - 文本信息提取方法、装置、计算机设备及存储介质 - Google Patents
文本信息提取方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110888940B CN110888940B CN201910995457.3A CN201910995457A CN110888940B CN 110888940 B CN110888940 B CN 110888940B CN 201910995457 A CN201910995457 A CN 201910995457A CN 110888940 B CN110888940 B CN 110888940B
- Authority
- CN
- China
- Prior art keywords
- language
- entity
- corpus
- expanded
- entity pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种文本信息提取方法及相关设备。所述方法根据第一语言语料文本、第二语言语料文本得到第一语言标记语料集、第一语言未标记语料集、第二语言标记语料集、第二语言未标记语料集,利用各个语料集协同训练第一语言分类器和第二语言分类器,利用第一语言分类器对根据混合语句中得到的第一语言目标实体对进行分类,利用第二语言分类器对根据混合语句得到的第二语言目标实体对进行分类,根据第一语言目标实体对和第二语言实体对的分类结果得到混合语句的混合实体对的实体关系。本发明实现了从使用两种不同语言的文本中准确地提取出实体关系。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种文本信息提取方法、装置、计算机设备及计算机存储介质。
背景技术
信息抽取是自然语言处理领域的关键技术,信息抽取是从文本中抽取特定的信息,形成结构化的数据供用户查询和使用。
信息抽取包含实体抽取和关系抽取。实体抽取是关系抽取的基础,是从文本中识别出人名、地名、机构名、日期、数额等实体信息。关系抽取是识别实体之间的语义关系。关系抽取是信息抽取中一个重要的研究课题,也是构建知识图谱的关键步骤,对信息检索、文本分类、自动问答、机器翻译等自然语言处理任务有很大帮助。
现有的信息抽取系统对使用单一语言(如中文、英文)的文本可以实现较好的信息提取,而对于使用两种不同语言的文本进行信息抽取的效果并不理想。
发明内容
鉴于以上内容,有必要提出一种文本信息提取方法、装置、计算机装置及计算机存储介质,其可以从使用两种不同语言的文本中准确地提取出实体关系。
本申请的第一方面提供一种文本信息提取方法,所述方法包括:
识别第一语言语料文本中每个语句包含的第一语言实体和第二语言语料文本中每个语句包含的第二语言实体,将所述第一语言语料文本中每两个在同一语句中且之间包括至少一个动词的第一语言实体组成第一语言语料实体对,将所述第二语言语料文本中每两个在同一语句中且之间包括至少一个动词的第二语言实体组成第二语言语料实体对;
将所述第一语言语料文本的每个语句中所述第一语言语料实体对的两个第一语言实体之间包含所述两个第一语言实体的部分翻译为第二语言,得到第二语言扩展语句,将所述第二语言语料文本的每个语句中所述第二语言语料实体对的两个第二语言实体之间包含所述两个第二语言实体的部分翻译为第一语言,得到第一语言扩展语句;
将所述第一语言扩展语句加入所述第一语言语料文本,得到扩展后的第一语言语料文本,根据扩展后的第一语言语料文本得到扩展后的第一语言语料实体对,将所述第二语言扩展语句加入所述第二语言语料文本,得到扩展后的第二语言语料文本,根据扩展后的第二语言语料文本得到扩展后的第二语言语料实体对;
提取所述扩展后的第一语言语料实体对的特征向量,提取所述扩展后的第二语言语料实体对的特征向量;
对所述扩展后的第一语言语料实体对的特征向量中的部分特征向量标记实体关系,得到由标记有实体关系的扩展后的第一语言语料实体对的特征向量组成的第一语言标记语料集和由未标记有实体关系的扩展后的第一语言语料实体对的特征向量组成的第一语言未标记语料集,对所述扩展后的第二语言语料实体对的特征向量中的部分特征向量标记实体关系,得到由标记有实体关系的扩展后的第二语言语料实体对的特征向量组成的第二语言标记语料集和由未标记有实体关系的扩展后的第二语言语料实体对的特征向量组成的第二语言未标记语料集;
利用所述第一语言标记语料集、所述第一语言未标记语料集、所述第二语言标记语料集、所述第二语言未标记语料集协同训练第一语言分类器和第二语言分类器;
将待处理的使用所述第一语言和所述第二语言的混合语句翻译为所述第一语言,得到第一语言目标语句,提取所述第一语言目标语句中的第一语言目标实体对和所述第一语言目标实体对的特征向量;
根据所述第一语言目标实体对的特征向量,利用所述第一语言分类器对所述第一语言目标实体对进行分类,得到所述第一语言目标实体对的分类结果和分类置信度;
将所述混合语句翻译为所述第二语言,得到第二语言目标语句,提取所述第二语言目标语句中的第二语言目标实体对和所述第二语言目标实体对的特征向量;
根据所述第二语言目标实体对的特征向量,利用所述第二语言分类器对所述第二语言目标实体对进行分类,得到所述第二语言目标实体对的分类结果和分类置信度;
根据所述第一语言目标实体对的分类结果和分类置信度、所述第二语言目标实体对的分类结果和分类置信度确定所述混合语句的混合实体对和所述混合实体对的实体关系。
另一种可能的实现方式中,所述提取所述扩展后的第一语言语料实体对的特征向量包括:
确定所述扩展后的第一语言语料实体对的关系词;
确定所述扩展后的第一语言语料实体对的两个第一语言实体的邻近词和所述关系词的邻近词;
根据所述关系词提取所述扩展后的第一语言语料实体对所在语句的句法特征;
计算所述扩展后的第一语言语料实体对的词间距离;
将所述两个第一语言实体、所述两个第一语言实体的邻近词、所述关系词的邻近词、所述句法特征、所述词间距离组合为所述扩展后的第一语言语料实体对的特征向量。
另一种可能的实现方式中,所述确定所述扩展后的第一语言语料实体对的关系词包括:
若所述扩展后的第一语言语料实体对的两个第一语言实体之间存在一个动词,将所述动词作为所述扩展后的第一语言语料实体对的关系词;
若所述扩展后的第一语言语料实体对的两个第一语言实体之间存在多个动词,则选择所述多个动词中与所述扩展后的第一语言语料实体对的关系强度最大的动词作为所述扩展后的第一语言语料实体对的关系词。
另一种可能的实现方式中,所述根据所述关系词提取所述扩展后的第一语言语料实体对所在语句的句法特征包括:
对所述扩展后的第一语言语料实体对所在语句进行依存句法分析,得到所述扩展后的第一语言语料实体对所在语句的核心词、所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的依存关系;
计算所述核心词与所述关系词的距离;
根据所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的依存关系确定所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的距离。
另一种可能的实现方式中,所述根据所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的依存关系确定所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的距离包括:
若所述扩展后的第一语言语料实体对的第一个第一语言实体与所述关系词的依存关系为主谓关系,则所述第一个第一语言实体与所述关系词的距离为1,若所述第一个第一语言实体与所述关系词的依存关系为定中关系,则所述第一个第一语言实体与所述关系词的距离为-1,若所述第一个第一语言实体与所述关系词的依存关系为主谓关系和定中关系以外的其他关系,则所述第一个第一语言实体与所述关系词的距离为0;
若所述扩展后的第一语言语料实体对的第二个第一语言实体与所述关系词的依存关系为动宾关系,则所述第二个第一语言实体与所述关系词的距离为1,若所述第二个第一语言实体与所述关系词的依存关系为定中关系,则所述第二个第一语言实体与所述关系词的距离为-1,若所述第二个第一语言实体与所述关系词的依存关系为动宾关系和定中关系以外的其他关系,则所述第二个第一语言实体与所述关系词的距离为0。
另一种可能的实现方式中,所述计算所述扩展后的第一语言语料实体对的词间距离包括:
根据所述扩展后的第一语言语料实体对的第一个第一语言实体与第二个第一语言实体之间的词语的数量确定所述第一个第一语言实体与所述第二个第一语言实体的距离;
根据所述第一个第一语言实体与所述关系词之间的词语的数量确定所述第一个第一语言实体与所述关系词的距离;
根据所述第二个第一语言实体与所述关系词之间的词语的数量确定所述第二个第一语言实体与所述关系词的距离。
另一种可能的实现方式中,所述利用所述第一语言标记语料集、所述第一语言未标记语料集、所述第二语言标记语料集、所述第二语言未标记语料集协同训练第一语言分类器和第二语言分类器包括:
用所述第一语言标记语料集训练所述第一语言分类器;
用所述第一语言分类器对所述第一语言未标记语料集中的实体对进行分类,得到所述第一语言未标记语料集中的实体对的实体关系和分类置信度;
按照分类置信度从高到低的顺序从所述第一语言未标记语料集中选择第一预设数量的实体对Ec,将Ec翻译为所述第二语言,得到Ecte;
用所述第二语言标记语料集训练所述第二语言分类器;
用所述第二语言分类器对所述第二语言未标记语料集中的实体对进行分类,得到所述第二语言未标记语料集中的实体对的实体关系和分类置信度;
按照分类置信度从高到低的顺序从所述第二语言未标记语料集中选择所述第一预设数量的实体对Ee,将Ee翻译为所述第一语言,得到Eetc;
将Ec和Eetc添加到所述第一语言标记语料集;
将Ee和Ecte添加到所述第二语言标记语料集;
从所述第一语言未标记语料集中删除Ec,从所述第二语言未标记语料集中删除Ee;
循环执行上述步骤,直到所述第一语言未标记语料集和所述第二语言未标记语料集为空集。
本申请的第二方面提供一种文本信息提取装置,所述装置包括:
识别模块,用于识别第一语言语料文本中每个语句包含的第一语言实体和第二语言语料文本中每个语句包含的第二语言实体,将所述第一语言语料文本中每两个在同一语句中且之间包括至少一个动词的第一语言实体组成第一语言语料实体对,将所述第二语言语料文本中每两个在同一语句中且之间包括至少一个动词的第二语言实体组成第二语言语料实体对;
扩展模块,用于将所述第一语言语料文本的每个语句中所述第一语言语料实体对的两个第一语言实体之间包含所述两个第一语言实体的部分翻译为第二语言,得到第二语言扩展语句,将所述第二语言语料文本的每个语句中所述第二语言语料实体对的两个第二语言实体之间包含所述两个第二语言实体的部分翻译为第一语言,得到第一语言扩展语句,将所述第一语言扩展语句加入所述第一语言语料文本,得到扩展后的第一语言语料文本,根据扩展后的第一语言语料文本得到扩展后的第一语言语料实体对,将所述第二语言扩展语句加入所述第二语言语料文本,得到扩展后的第二语言语料文本,根据扩展后的第二语言语料文本得到扩展后的第二语言语料实体对;
第一提取模块,用于提取所述扩展后的第一语言语料实体对的特征向量,提取所述扩展后的第二语言语料实体对的特征向量;
标记模块,用于对所述扩展后的第一语言语料实体对的特征向量中的部分特征向量标记实体关系,得到由标记有实体关系的扩展后的第一语言语料实体对的特征向量组成的第一语言标记语料集和由未标记有实体关系的扩展后的第一语言语料实体对的特征向量组成的第一语言未标记语料集,对所述扩展后的第二语言语料实体对的特征向量中的部分特征向量标记实体关系,得到由标记有实体关系的扩展后的第二语言语料实体对的特征向量组成的第二语言标记语料集和由未标记有实体关系的扩展后的第二语言语料实体对的特征向量组成的第二语言未标记语料集;
训练模块,用于利用所述第一语言标记语料集、所述第一语言未标记语料集、所述第二语言标记语料集、所述第二语言未标记语料集协同训练第一语言分类器和第二语言分类器;
第二提取模块,用于将待处理的使用所述第一语言和所述第二语言的混合语句翻译为所述第一语言,得到第一语言目标语句,提取所述第一语言目标语句中的第一语言目标实体对和所述第一语言目标实体对的特征向量;
第一分类模块,用于根据所述第一语言目标实体对的特征向量,利用所述第一语言分类器对所述第一语言目标实体对进行分类,得到所述第一语言目标实体对的分类结果和分类置信度;
第三提取模块,用于将所述混合语句翻译为所述第二语言,得到第二语言目标语句,提取所述第二语言目标语句中的第二语言目标实体对和所述第二语言目标实体对的特征向量;
第二分类模块,用于根据所述第二语言目标实体对的特征向量,利用所述第二语言分类器对所述第二语言目标实体对进行分类,得到所述第二语言目标实体对的分类结果和分类置信度;
确定模块,用于根据所述第一语言目标实体对的分类结果和分类置信度、所述第二语言目标实体对的分类结果和分类置信度确定所述混合语句的混合实体对和所述混合实体对的实体关系。
本申请的第三方面提供一种计算机设备,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述文本信息提取方法。
本申请的第四方面提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述文本信息提取方法。
本发明根据第一语言语料文本、第二语言语料文本得到第一语言标记语料集、第一语言未标记语料集、第二语言标记语料集、第二语言未标记语料集,利用各个语料集协同训练第一语言分类器和第二语言分类器,利用第一语言分类器对根据混合语句中得到的第一语言目标实体对进行分类,利用第二语言分类器对根据混合语句得到的第二语言目标实体对进行分类,根据第一语言目标实体对和第二语言目标实体对的分类结果得到混合语句的混合实体对的实体关系。本发明实现了从使用两种不同语言的文本中准确地提取出实体关系。
附图说明
图1是本发明实施例提供的文本信息提取方法的流程图。
图2是本发明实施例提供的文本信息提取装置的结构图。
图3是本发明实施例提供的计算机装置的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
优选地,本发明的文本信息提取方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
实施例一
图1是本发明实施例一提供的文本信息提取方法的流程图。所述文本信息提取方法应用于计算机装置,用于从混合语言文本中提取实体关系。
如图1所示,所述文本信息提取方法包括:
S101,识别第一语言语料文本中每个语句包含的第一语言实体和第二语言语料文本中每个语句包含的第二语言实体,将所述第一语言语料文本中每两个在同一语句中且之间包括至少一个动词的第一语言实体组成第一语言语料实体对,将所述第二语言语料文本中每两个在同一语句中且之间包括至少一个动词的第二语言实体组成第二语言语料实体对。
第一语言语料文本和第二语言语料文本是两种不同语言的语料文本。所述第一语言语料文本使用第一语言,所述第二语言语料文本使用第二语言。例如,第一语言语料文本可以为中文语料文本,第二语言语料文本可以为英文语料文本。
可以从不同信息渠道获取第一语言语料文本和第二语言语料文本。例如,可以从广播对话、电视新闻、网络博客、社交网站、维基百科等获取第一语言语料文本和第二语言语料文本。
实体是命名实体的简称,是指具有特定意义的人名、地名、机构名、专有名词等名词。
可以采用分词工具识别第一语言语料文本和第二语言语料文本的每个语句包含的实体,得到第一语言语料文本中每个语句包含的第一语言实体和第二语言语料文本中每个语句包含的第二语言实体。例如,可以采用中文分词工具(如哈尔滨工业大学社会计算与信息检索研究中心研发的语言技术平台(Language Technology Platform,LTP)、中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS(Institute of ComputingTechnology,Chinese Lexical Analysis System)等)识别中文语料文本中每个中文语句包含的实体(可以进行分词、实体识别、词性标注、新词发现),得到中文实体。采用英文分词工具(如斯坦福大学研发的coreNLP工具)识别英文语料文本中每个英文语句包含的实体(可以进行实体识别、词性标注、新词发现),得到英文实体。
将所述第一语言语料文本中每两个在同一语句中且之间包括至少一个动词的第一语言实体组成第一语言语料实体对,是指将第一语言语料文本中同一语句中的第一语言实体两两组合,若该语句中组合的两个第一语言实体之间包括至少一个动词,则组合的两个第一语言实体组成第一语言语料实体对。例如,语句A包括第一语言实体E1、E2、E3,两两组合为E1-E2、E2-E3、E1-E3,语句A中E1、E2之间不包括动词,E2、E3之间包括至少一个动词,E1、E3之间包括至少一个动词,则得到第一语言语料实体对E2-E3、E1-E3。
从第二语言语料文本中得到第二语言语料实体对的含义与从第一语言语料文本中得到第一语言语料实体对类似,此处不再赘述。
S102,将所述第一语言语料文本的每个语句中所述第一语言语料实体对的两个第一语言实体之间包含所述两个第一语言实体的部分翻译为第二语言,得到第二语言扩展语句,将所述第二语言语料文本的每个语句中所述第二语言语料实体对的两个第二语言实体之间包含所述两个第二语言实体的部分翻译为第一语言,得到第一语言扩展语句。
例如,采用LTP对中文语料文本中的句子“德国研究机构亥姆霍兹联合会18日宣布,计划在德国西部城市萨尔布吕肯建成全球最大的信息技术安全研究中心,以应对不断增加的网络犯罪风险”进行分词,分词结果为“德国研究机构亥姆霍兹联合会18日宣布,计划在德国西部城市萨尔布吕肯建成全球最大的信息技术安全研究中心,以应对不断增加的网络犯罪风险”,将两个实体“亥姆霍兹联合会”“安全研究中心”之间的部分“亥姆霍兹联合会18日宣布,计划在德国西部城市萨尔布吕肯建成全球最大的信息技术安全研究中心”翻译为英文语料语句“Helmholtz Association announced on the 18th that it plans tobuild the world's largest information technology security research center inthe western German city of Saarbrücken”。两个实体“亥姆霍兹联合会”“安全研究中心”之间包括动词“宣布”、“计划”、“建成”。可以通过机器翻译,如谷歌翻译等将所述第一语言语料实体对的两个第一语言实体之间包含所述两个第一语言实体的部分翻译为所述第二语言,将所述第二语言语料文本的每个语句中所述第二语言语料实体对的两个第二语言实体之间包含所述两个第二语言实体的部分翻译为第一语言。
S103,将所述第一语言扩展语句加入所述第一语言语料文本,得到扩展后的第一语言语料文本,根据扩展后的第一语言语料文本得到扩展后的第一语言语料实体对,将所述第二语言扩展语句加入所述第二语言语料文本,得到扩展后的第二语言语料文本,根据扩展后的第二语言语料文本得到扩展后的第二语言语料实体对。
将所述第一语言扩展语句加入所述第一语言语料文本,将所述第二语言扩展语句加入所述第二语言语料文本,是为了扩展第一语言与第二语言的语料库,增加同一实体关系在不同语言中的语料文本。例如,某一实体关系在第一语言语料文本中可能由于语句由从句组成、语句省略部分词语、语句结构倒装等原因不能被准确抽取,而在所述第二语言语料文本中可以被准确抽取。
可以将所述第一语言扩展语句对应的第一语言语料实体对加入所述第一语言语料文本的所有语句对应的第一语言语料实体对,得到扩展后的第一语言语料实体对。可以将所述第二语言扩展语句对应的第二语言语料实体对加入所述第二语言语料文本的所有句子对应的第二语言语料实体对,得到扩展后的第二语言语料实体对。
S104,提取所述扩展后的第一语言语料实体对的特征向量,提取所述扩展后的第二语言语料实体对的特征向量。
每个扩展后的第一语言语料实体对可以提取得到一个特征向量。每个扩展后的第二语言语料实体对可以提取得到一个特征向量。
提取所述扩展后的第一语言语料实体对的特征向量的方法和提取所述扩展后的第二语言语料实体对的特征向量的方法相同,以下以提取所述扩展后的第一语言语料实体对的特征向量为例进行说明。
在一具体实施例中,所述提取所述扩展后的第一语言语料实体对的特征向量包括:
确定所述扩展后的第一语言语料实体对的关系词;确定所述扩展后的第一语言语料实体对的两个第一语言实体的邻近词和所述关系词的邻近词;根据所述关系词提取所述扩展后的第一语言语料实体对所在语句的句法特征;计算所述扩展后的第一语言语料实体对的词间距离;将所述两个第一语言实体、所述两个第一语言实体的邻近词、所述关系词的邻近词、所述句法特征、所述词间距离组合为所述扩展后的第一语言语料实体对的特征向量。
在其他的实施例中,可以采用其他方法提取所述扩展后的第一语言语料实体对的特征向量。例如,可以从预设语言库中获取所述扩展后的第一语言语料实体对的近义词或上位词,将所述近义词或上位词作为所述扩展后的第一语言语料实体对的特征向量。再如,可以提取所述关系词的依赖动词作为所述扩展后的第一语言语料实体对的特征向量,所述依赖动词可以是离所述扩展后的第一语言语料实体对的第二个第一语言实体最近的动词。
在一具体实施例中,所述确定所述扩展后的第一语言语料实体对的关系词包括:
若所述扩展后的第一语言语料实体对的两个第一语言实体之间存在一个动词,将所述动词作为所述扩展后的第一语言语料实体对的关系词;若所述扩展后的第一语言语料实体对的两个第一语言实体之间存在多个动词,则选择所述多个动词中与所述扩展后的第一语言语料实体对的关系强度最大的动词作为所述扩展后的第一语言语料实体对的关系词。
所述扩展后的第一语言语料实体对(C1,C2)与动词R的关系强度可以计算如下:
其中C1、C2为所述扩展后的第一语言语料实体对的两个第一语言实体,S为所述扩展后的第一语言语料实体对(C1,C2)与动词R的关系强度,f(C1,C2)为所述扩展后的第一语言语料实体对的两个第一语言实体在所述扩展后的第一语言语料文本中同时出现的次数,f(C1,R,C2)为所述扩展后的第一语言语料实体对中两个第一语言实体和动词R在所述扩展后的第一语言语料文本中同时出现的次数,a为预设常量,在一具体实施例中,0.00001Q<a<0.2Q,Q为所述扩展后的第一语言语料文本中的词的总数。
在一具体实施例中,所述根据所述关系词提取所述扩展后的第一语言语料实体对所在语句的句法特征包括:
对所述扩展后的第一语言语料实体对所在语句进行依存句法分析,得到所述扩展后的第一语言语料实体对所在语句的核心词、所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的依存关系;计算所述核心词与所述关系词的距离;根据所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的依存关系确定所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的距离。
所述核心词与所述关系词的距离、所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的距离即所述扩展后的第一语言语料实体对所在语句的句法特征。
在一具体实施方式中,所述根据所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的依存关系确定所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的距离包括:
若所述扩展后的第一语言语料实体对的第一个第一语言实体与所述关系词的依存关系为主谓关系,则所述第一个第一语言实体与所述关系词的距离为1,若所述第一个第一语言实体与所述关系词的依存关系为定中关系,则所述第一个第一语言实体与所述关系词的距离为-1,若所述第一个第一语言实体与所述关系词的依存关系为主谓关系和定中关系以外的其他关系,则所述第一个第一语言实体与所述关系词的距离为0;若所述扩展后的第一语言语料实体对的第二个第一语言实体与所述关系词的依存关系为动宾关系,则所述第二个第一语言实体与所述关系词的距离为1,若所述第二个第一语言实体与所述关系词的依存关系为定中关系,则所述第二个第一语言实体与所述关系词的距离为-1,若所述第二个第一语言实体与所述关系词的依存关系为动宾关系和定中关系以外的其他关系,则所述第二个第一语言实体与所述关系词的距离为0。
在一具体实施例中,所述计算所述扩展后的第一语言语料实体对的词间距离包括:
根据所述扩展后的第一语言语料实体对的第一个第一语言实体与第二个第一语言实体之间的词语的数量确定所述第一个第一语言实体与所述第二个第一语言实体的距离;根据所述第一个第一语言实体与所述关系词之间的词语的数量确定所述第一个第一语言实体与所述关系词的距离;根据所述第二个第一语言实体与所述关系词之间的词语的数量确定所述第二个第一语言实体与所述关系词的距离。
所述扩展后的第一语言语料实体对的第一个第一语言实体与第二个第一语言实体的距离、所述扩展后的第一语言语料实体对的第一个第一语言实体与所述扩展后的第一语言语料实体对的关系词的距离、所述扩展后的第一语言语料实体对的第二个第一语言实体与所述扩展后的第一语言语料实体对的关系词的距离即为所述扩展后的第一语言语料实体对的词间距离。
可以将所述扩展后的第一语言语料实体对的第一个第一语言实体与第二个第一语言实体之间的词语的数量作为所述第一个第一语言实体与所述第二个第一语言实体的距离,将所述第一个第一语言实体与所述关系词之间的词语的数量作为所述第一个第一语言实体与关系词的距离,将所述第二个第一语言实体与所述关系词之间的词语的数量作为所述第二个第一语言实体与关系词的距离。或者,可以按照其他方式确定所述第一个第一语言实体与所述第二个第一语言实体的距离、所述第一个第一语言实体与所述关系词的距离、所述第二个第一语言实体与所述关系词的距离。例如,将所述扩展后的第一语言语料实体对的第一个第一语言实体与第二个第一语言实体之间的词语的数量与给定系数的乘积作为所述第一个第一语言实体与所述第二个第一语言实体的距离,将所述第一个第一语言实体与所述关系词之间的词语的数量与给定系数的乘积作为所述第一个第一语言实体与关系词的距离,将所述第二个第一语言实体与所述关系词之间的词语的数量与给定系数的乘积作为所述第二个第一语言实体与关系词的距离。
在另一实施例中,所述提取所述扩展后的第一语言语料实体对的特征向量还可以包括:
判断所述扩展后的第一语言语料实体对是否包含在预设关系实体对中;若所述扩展后的第一语言语料实体对包含在预设关系实体对中,确定所述扩展后的第一语言语料实体对具有第一实体关系特征值(例如1);否则,若所述扩展后的第一语言语料实体对不包含在预设关系实体对中,确定所述扩展后的第一语言语料实体对具有第二实体关系特征值(例如0)。
S105,对所述扩展后的第一语言语料实体对的特征向量中的部分特征向量标记实体关系,得到由标记有实体关系的扩展后的第一语言语料实体对的特征向量组成的第一语言标记语料集和由未标记有实体关系的扩展后的第一语言语料实体对的特征向量组成的第一语言未标记语料集,对所述扩展后的第二语言语料实体对的特征向量中的部分特征向量标记实体关系,得到由标记有实体关系的扩展后的第二语言语料实体对的特征向量组成的第二语言标记语料集和由未标记有实体关系的扩展后的第二语言语料实体对的特征向量组成的第二语言未标记语料集。
可以提示用户对所述扩展后的第一语言语料实体对的特征向量标记实体关系,将经过标记的扩展后的第一语言语料实体对的特征向量作为第一语言标记语料集,将未经过标记的扩展后的第一语言语料实体对的特征向量作为第一语言未标记语料集。或者,可以将每个扩展后的第一语言语料实体对与标记有实体关系的第一语言实体对列表进行匹配,将匹配成功的扩展后的第一语言语料实体对的特征向量的实体关系标记为匹配成功的第一语言实体对列表中的实体对的实体关系。
第一语言标记语料集中扩展后的第一语言语料实体对的特征向量的数量可以小于第一语言未标记语料集中扩展后的第一语言语料实体对的特征向量的数量。
类似地,可以提示用户对所述扩展后的第二语言语料实体对的特征向量标记实体关系,将经过标记的扩展后的第二语言语料实体对的特征向量作为第二语言标记语料集,将未经过标记的扩展后的第二语言语料实体的特征向量对作为第二语言未标记语料集。或者,可以将每个扩展后的第二语言语料实体对与标记有实体关系的第二语言实体对列表进行匹配,将匹配成功的扩展后的第二语言语料实体对的特征向量的实体关系标记为匹配成功的第二语言实体对列表中的实体对的实体关系。
第二语言标记语料集中扩展后的第二语言语料实体对的特征向量的数量可以小于第二语言未标记语料集中扩展后的第二语言语料实体对的特征向量的数量。
实体关系可以包括地理位置关系、局部整体关系、组织结构从属关系、人物关系、类属关系、制造使用关系和转喻关系。
S106,利用所述第一语言标记语料集、所述第一语言未标记语料集、所述第二语言标记语料集、所述第二语言未标记语料集协同训练第一语言分类器和第二语言分类器。
在一具体实施例中,所述第一语言分类器和所述第二语言分类器可以包括SVM(Support Vector Machines,支持向量机)分类器、CRF(Conditional Random Fields,条件随机场)分类器等。
在一具体实施例中,所述利用所述第一语言标记语料集、所述第一语言未标记语料集、所述第二语言标记语料集、所述第二语言未标记语料集协同训练第一语言分类器和第二语言分类器可以包括:
(1)用所述第一语言标记语料集(记为Lc)训练所述第一语言分类器。例如,用已标记实体关系的中文语料实体对(即中文已标记语料集)训练中文分类器。具体地,将中文语料实体对的中文语料特征向量作为中文分类器的输入向量,将已标记实体关系对应的特征向量作为中文分类器的输出向量,中文语料库包括中文已标记语料集和中文未标记语料集。
(2)用所述第一语言分类器对所述第一语言未标记语料集(记为Uc)中的实体对进行分类,得到所述第一语言未标记语料集Uc中的实体对的实体关系和分类置信度。例如,用中文分类器标记中文未标记语料集中的中文实体对“亥姆霍兹联合会-安全研究中心”为组织结构从属关系。
(3)按照分类置信度从高到低的顺序从所述第一语言未标记语料集Uc中选择第一预设数量的实体对,记为Ec,并将Ec翻译为所述第二语言,得到Ecte。例如,通过中文分类器输出的中文实体对在各个实体关系上的概率值计算中文实体对在各个实体关系上的概率分布的熵值,将熵值的倒数作为分类置信度,选择中文未标记语料集中分类置信度最高的10个标有实体关系的中文语料实体对,并将分类置信度最高的10个标有实体关系的中文语料实体对翻译为英文(下称英文译文)。具体地,中文分类器输出的中文实体对在k个实体关系上的概率值为{P1,P2,…,Pi,…Pk},其中Pi表示中文实体对为实体关系i的概率,则熵值H为:
(4)用所述第二语言标记语料集(记为Le)训练所述第二语言分类器。
(5)用所述第二语言分类器对所述第二语言未标记语料集(记为Ue)中的实体对进行分类,得到所述第二语言未标记语料集Ue中的实体对的实体关系和分类置信度。
(6)按照分类置信度从高到低的顺序从所述第二语言未标记语料集Ue中选择所述第一预设数量的实体对,记为Ee,并将Ee翻译为第一语言,得到Eetc。例如,通过英文分类器输出的英文实体对在各个实体关系上的概率值计算英文实体对在各个实体关系上的概率分布的熵值,将熵值的倒数作为分类置信度,选择英文未标记语料集中分类置信度最高的10个标有实体关系的英文语料实体对,并将分类置信度最高的10个标有实体关系的英文语料实体对翻译为中文(下称中文译文)。
(7)将Ec和Eetc添加到所述第一语言标记语料集Lc。例如,将中文未标记语料集中分类置信度最高的10个标有实体关系的中文语料实体对和标有实体关系的中文译文添加到中文标记语料集。
(8)将Ee和Ecte添加到所述第二语言标记语料集Le。例如,将未标记语料集中分类置信度最高的10个标有实体关系的英文语料实体对和标有实体关系的英文译文添加到英文标记语料集。
(9)从所述第一语言未标记语料集Uc中删除Ec,从所述第二语言未标记语料集Ue中删除Ee。
循环执行上述步骤,直到所述第一语言未标记语料集Uc和所述第二语言未标记语料集Ue为空集。
S107,将待处理的使用所述第一语言和所述第二语言的混合语句翻译为所述第一语言,得到第一语言目标语句,提取所述第一语言目标语句中的第一语言目标实体对和所述第一语言目标实体对的特征向量。
本实施例中,提取第一语言目标语句中的第一语言目标实体对的方法与上述提取第一语言语料文本中的第一语言语料实体对的方法相同,提取第一语言目标实体对的特征向量的方法与上述提取第一语言语料实体对的特征向量的方法相同,此处不再赘述。
S108,根据所述第一语言目标实体对的特征向量,利用所述第一语言分类器对所述第一语言目标实体对进行分类,得到所述第一语言目标实体对的分类结果和分类置信度。
例如,用经过训练的中文分类器对中文目标实体对的特征向量进行分类,得到中文目标实体对在各个实体关系的概率,并确定概率最大的实体关系为中文目标实体对的实体关系。
S109,将所述混合语句翻译为所述第二语言,得到第二语言目标语句,提取所述第二语言目标语句中的第二语言目标实体对和所述第二语言目标实体对的特征向量。
例如,通过机器翻译(如谷歌翻译)将由中文词和英文词组成的混合语句翻译为英文,得到英文目标语句,提取英文目标语句的英文目标实体对和英文目标实体对的特征向量。本实施例中,提取第二语言目标语句中的第二语言目标实体对的方法与上述提取第二语言语料文本中的第二语言语料实体对的方法相同,提取第二语言目标实体对的特征向量的方法与上述提取第一语言语料实体对的特征向量的方法类似,此处不再赘述。
S110,根据所述第二语言目标实体对的特征向量,利用所述第二语言分类器对所述第二语言目标实体对进行分类,得到所述第二语言目标实体对的分类结果和分类置信度。
例如,利用经过训练的英文分类器根据英文目标实体对的特征向量对英文目标实体对进行分类,得到英文目标实体对在各个实体关系的概率,并确定概率最大的实体关系为英文目标实体对的实体关系。
S111,根据所述第一语言目标实体对的分类结果和分类置信度、所述第二语言目标实体对的分类结果和分类置信度确定所述混合语句的混合实体对和所述混合实体对的实体关系。
在一具体实施例中,若所述第一语言目标实体对的分类置信度大于所述第二语言目标实体对的分类置信度,将所述第一语言目标实体对中所述第一语言实体对确定为所述混合语句的混合实体对,将所述第一实体对的实体关系确定为所述混合实体对的实体关系;
若所述第二语言目标实体对的分类置信度大于所述第一语言目标实体对的分类置信度,将所述第二语言目标实体对中所述第二语言实体对确定为所述混合语句的混合实体对,将所述第二实体对的实体关系确定为所述混合实体对的实体关系;
其中,分类置信度Z为:
其中,H为实体对在各个实体关系上的概率分布的熵值,分类器(第一语言分类器或第二语言分类器)输出的实体对在k个实体关系上的概率值为{P1,P2,…Pk},其中Pj为{P1,P2,…Pk}中的最大值。
实施例一的文本信息提取方法根据第一语言语料文本、第二语言语料文本得到第一语言标记语料集、第一语言未标记语料集、第二语言标记语料集、第二语言未标记语料集,利用各个语料集协同训练第一语言分类器和第二语言分类器,利用第一语言分类器对根据混合语句中得到的第一语言目标实体对进行分类,利用第二语言分类器对根据混合语句得到的第二语言目标实体对进行分类,根据第一语言目标实体对和第二语言目标实体对的分类结果得到混合语句的混合实体对的实体关系。实施例一实现了从使用两种不同语言的文本中准确地提取出实体关系。
实施例二
图2是本发明实施例二提供的文本信息提取装置的结构图。所述文本信息提取装置20应用于计算机装置。所述文本信息提取装置20用于从混合语言文本中提取实体关系。如图2所示,所述文本信息提取装置20可以包括识别模块201、扩展模块202、第一提取模块203、标记模块204、训练模块205、第二提取模块206、第一分类模块207、第三提取模块208、第二分类模块209、确定模块210。
识别模块201,用于识别第一语言语料文本中每个语句包含的第一语言实体和第二语言语料文本中每个语句包含的第二语言实体,将所述第一语言语料文本中每两个在同一语句中且之间包括至少一个动词的第一语言实体组成第一语言语料实体对,将所述第二语言语料文本中每两个在同一语句中且之间包括至少一个动词的第二语言实体组成第二语言语料实体对。
第一语言语料文本和第二语言语料文本是两种不同语言的语料文本。所述第一语言语料文本使用第一语言,所述第二语言语料文本使用第二语言。例如,第一语言语料文本可以为中文语料文本,第二语言语料文本可以为英文语料文本。
可以从不同信息渠道获取第一语言语料文本和第二语言语料文本。例如,可以从广播对话、电视新闻、网络博客、社交网站、维基百科等获取第一语言语料文本和第二语言语料文本。
实体是命名实体的简称,是指具有特定意义的人名、地名、机构名、专有名词等名词。
可以采用分词工具识别第一语言语料文本和第二语言语料文本的每个语句包含的实体,得到第一语言语料文本中每个语句包含的第一语言实体和第二语言语料文本中每个语句包含的第二语言实体。例如,可以采用中文分词工具(如哈尔滨工业大学社会计算与信息检索研究中心研发的语言技术平台(Language Technology Platform,LTP)、中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS(Institute of ComputingTechnology,Chinese Lexical Analysis System)等)识别中文语料文本中每个中文语句包含的实体(可以进行分词、实体识别、词性标注、新词发现),得到中文实体。采用英文分词工具(如斯坦福大学研发的coreNLP工具)识别英文语料文本中每个英文语句包含的实体(可以进行实体识别、词性标注、新词发现),得到英文实体。
将所述第一语言语料文本中每两个在同一语句中且之间包括至少一个动词的第一语言实体组成第一语言语料实体对,是指将第一语言语料文本中同一语句中的第一语言实体两两组合,若该语句中组合的两个第一语言实体之间包括至少一个动词,则组合的两个第一语言实体组成第一语言语料实体对。例如,语句A包括第一语言实体E1、E2、E3,两两组合为E1-E2、E2-E3、E1-E3,语句A中E1、E2之间不包括动词,E2、E3之间包括至少一个动词,E1、E3之间包括至少一个动词,则得到第一语言语料实体对E2-E3、E1-E3。
从第二语言语料文本中得到第二语言语料实体对的含义与从第一语言语料文本中得到第一语言语料实体对类似,此处不再赘述。
扩展模块202,用于将所述第一语言语料文本的每个语句中所述第一语言语料实体对的两个第一语言实体之间包含所述两个第一语言实体的部分翻译为所述第二语言,得到第二语言扩展语句,将所述第二语言语料文本的每个语句中所述第二语言语料实体对的两个第二语言实体之间包含所述两个第二语言实体的部分翻译为第一语言,得到第一语言扩展语句,将所述第一语言扩展语句加入所述第一语言语料文本,得到扩展后的第一语言语料文本。
例如,采用LTP对中文语料文本中的句子“德国研究机构亥姆霍兹联合会18日宣布,计划在德国西部城市萨尔布吕肯建成全球最大的信息技术安全研究中心,以应对不断增加的网络犯罪风险”进行分词,分词结果为“德国研究机构亥姆霍兹联合会18日宣布,计划在德国西部城市萨尔布吕肯建成全球最大的信息技术安全研究中心,以应对不断增加的网络犯罪风险”,将两个实体“亥姆霍兹联合会”“安全研究中心”之间的部分“亥姆霍兹联合会18日宣布,计划在德国西部城市萨尔布吕肯建成全球最大的信息技术安全研究中心”翻译为英文语料语句“Helmholtz Association announced on the 18th that it plans tobuild the world's largest information technology security research center inthe western German city of Saarbrücken”。两个实体“亥姆霍兹联合会”“安全研究中心”之间包括动词“宣布”、“计划”、“建成”。可以通过机器翻译,如谷歌翻译等将所述第一语言语料实体对的两个第一语言实体之间包含所述两个第一语言实体的部分翻译为所述第二语言,将所述第二语言语料文本的每个语句中所述第二语言语料实体对的两个第二语言实体之间包含所述两个第二语言实体的部分翻译为第一语言。
扩展模块202,还用于根据扩展后的第一语言语料文本得到扩展后的第一语言语料实体对,将所述第二语言扩展语句加入所述第二语言语料文本,得到扩展后的第二语言语料文本,根据扩展后的第二语言语料文本得到扩展后的第二语言语料实体对。
将所述第一语言扩展语句加入所述第一语言语料文本,将所述第二语言扩展语句加入所述第二语言语料文本,是为了扩展第一语言与第二语言的语料库,增加同一实体关系在不同语言中的语料文本。例如,某一实体关系在第一语言语料文本中可能由于语句由从句组成、语句省略部分词语、语句结构倒装等原因不能被准确抽取,而在所述第二语言语料文本中可以被准确抽取。
可以将所述第一语言扩展语句对应的第一语言语料实体对加入所述第一语言语料文本的所有语句对应的第一语言语料实体对,得到扩展后的第一语言语料实体对。可以将所述第二语言扩展语句对应的第二语言语料实体对加入所述第二语言语料文本的所有句子对应的第二语言语料实体对,得到扩展后的第二语言语料实体对。
第一提取模块203,用于提取所述扩展后的第一语言语料实体对的特征向量,提取所述扩展后的第二语言语料实体对的特征向量。
每个扩展后的第一语言语料实体对可以提取得到一个特征向量。每个扩展后的第二语言语料实体对可以提取得到一个特征向量。
提取所述扩展后的第一语言语料实体对的特征向量的方法和提取所述扩展后的第二语言语料实体对的特征向量的方法相同,以下以提取所述扩展后的第一语言语料实体对的特征向量为例进行说明。
在一具体实施例中,所述提取所述扩展后的第一语言语料实体对的特征向量包括:
确定所述扩展后的第一语言语料实体对的关系词;确定所述扩展后的第一语言语料实体对的两个第一语言实体的邻近词和所述关系词的邻近词;根据所述关系词提取所述扩展后的第一语言语料实体对所在语句的句法特征;计算所述扩展后的第一语言语料实体对的词间距离;将所述两个第一语言实体、所述两个第一语言实体的邻近词、所述关系词的邻近词、所述句法特征、所述词间距离组合为所述扩展后的第一语言语料实体对的特征向量。
在其他的实施例中,可以采用其他方法提取所述扩展后的第一语言语料实体对的特征向量。例如,可以从预设语言库中获取所述扩展后的第一语言语料实体对的近义词或上位词,将所述近义词或上位词作为所述扩展后的第一语言语料实体对的特征向量。再如,可以提取所述关系词的依赖动词作为所述扩展后的第一语言语料实体对的特征向量,所述依赖动词可以是离所述扩展后的第一语言语料实体对的第二个第一语言实体最近的动词。
在一具体实施例中,所述确定所述扩展后的第一语言语料实体对的关系词包括:
若所述扩展后的第一语言语料实体对的两个第一语言实体之间存在一个动词,将所述动词作为所述扩展后的第一语言语料实体对的关系词;若所述扩展后的第一语言语料实体对的两个第一语言实体之间存在多个动词,则选择所述多个动词中与所述扩展后的第一语言语料实体对的关系强度最大的动词作为所述扩展后的第一语言语料实体对的关系词。
所述扩展后的第一语言语料实体对(C1,C2)与动词R的关系强度可以计算如下:
其中C1、C2为所述扩展后的第一语言语料实体对的两个第一语言实体,S为所述扩展后的第一语言语料实体对(C1,C2)与动词R的关系强度,f(C1,C2)为所述扩展后的第一语言语料实体对的两个第一语言实体在所述扩展后的第一语言语料文本中同时出现的次数,f(C1,R,C2)为所述扩展后的第一语言语料实体对中两个第一语言实体和动词R在所述扩展后的第一语言语料文本中同时出现的次数,a为预设常量,在一具体实施例中,0.00001Q<a<0.2Q,Q为所述扩展后的第一语言语料文本中的词的总数。
在一具体实施例中,所述根据所述关系词提取所述扩展后的第一语言语料实体对所在语句的句法特征包括:
对所述扩展后的第一语言语料实体对所在语句进行依存句法分析,得到所述扩展后的第一语言语料实体对所在语句的核心词、所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的依存关系;计算所述核心词与所述关系词的距离;根据所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的依存关系确定所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的距离。
所述核心词与所述关系词的距离、所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的距离即所述扩展后的第一语言语料实体对所在语句的句法特征。
在一具体实施方式中,所述根据所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的依存关系确定所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的距离包括:
若所述扩展后的第一语言语料实体对的第一个第一语言实体与所述关系词的依存关系为主谓关系,则所述第一个第一语言实体与所述关系词的距离为1,若所述第一个第一语言实体与所述关系词的依存关系为定中关系,则所述第一个第一语言实体与所述关系词的距离为-1,若所述第一个第一语言实体与所述关系词的依存关系为主谓关系和定中关系以外的其他关系,则所述第一个第一语言实体与所述关系词的距离为0;若所述扩展后的第一语言语料实体对的第二个第一语言实体与所述关系词的依存关系为动宾关系,则所述第二个第一语言实体与所述关系词的距离为1,若所述第二个第一语言实体与所述关系词的依存关系为定中关系,则所述第二个第一语言实体与所述关系词的距离为-1,若所述第二个第一语言实体与所述关系词的依存关系为动宾关系和定中关系以外的其他关系,则所述第二个第一语言实体与所述关系词的距离为0。
在一具体实施例中,所述计算所述扩展后的第一语言语料实体对的词间距离包括:
根据所述扩展后的第一语言语料实体对的第一个第一语言实体与第二个第一语言实体之间的词语的数量确定所述第一个第一语言实体与所述第二个第一语言实体的距离;根据所述第一个第一语言实体与所述关系词之间的词语的数量确定所述第一个第一语言实体与所述关系词的距离;根据所述第二个第一语言实体与所述关系词之间的词语的数量确定所述第二个第一语言实体与所述关系词的距离。
所述扩展后的第一语言语料实体对的第一个第一语言实体与第二个第一语言实体的距离、所述扩展后的第一语言语料实体对的第一个第一语言实体与所述扩展后的第一语言语料实体对的关系词的距离、所述扩展后的第一语言语料实体对的第二个第一语言实体与所述扩展后的第一语言语料实体对的关系词的距离即为所述扩展后的第一语言语料实体对的词间距离。
可以将所述扩展后的第一语言语料实体对的第一个第一语言实体与第二个第一语言实体之间的词语的数量作为所述第一个第一语言实体与所述第二个第一语言实体的距离,将所述第一个第一语言实体与所述关系词之间的词语的数量作为所述第一个第一语言实体与关系词的距离,将所述第二个第一语言实体与所述关系词之间的词语的数量作为所述第二个第一语言实体与关系词的距离。或者,可以按照其他方式确定所述第一个第一语言实体与所述第二个第一语言实体的距离、所述第一个第一语言实体与所述关系词的距离、所述第二个第一语言实体与所述关系词的距离。例如,将所述扩展后的第一语言语料实体对的第一个第一语言实体与第二个第一语言实体之间的词语的数量与给定系数的乘积作为所述第一个第一语言实体与所述第二个第一语言实体的距离,将所述第一个第一语言实体与所述关系词之间的词语的数量与给定系数的乘积作为所述第一个第一语言实体与关系词的距离,将所述第二个第一语言实体与所述关系词之间的词语的数量与给定系数的乘积作为所述第二个第一语言实体与关系词的距离。
在另一实施例中,所述提取所述扩展后的第一语言语料实体对的特征向量还可以包括:
判断所述扩展后的第一语言语料实体对是否包含在预设关系实体对中;若所述扩展后的第一语言语料实体对包含在预设关系实体对中,确定所述扩展后的第一语言语料实体对具有第一实体关系特征值(例如1);否则,若所述扩展后的第一语言语料实体对不包含在预设关系实体对中,确定所述扩展后的第一语言语料实体对具有第二实体关系特征值(例如0)。
标记模块204,用于对所述扩展后的第一语言语料实体对的特征向量中的部分特征向量标记实体关系,得到由标记有实体关系的扩展后的第一语言语料实体对的特征向量组成的第一语言标记语料集和由未标记有实体关系的扩展后的第一语言语料实体对的特征向量组成的第一语言未标记语料集,对所述扩展后的第二语言语料实体对的特征向量中的部分特征向量标记实体关系,得到由标记有实体关系的扩展后的第二语言语料实体对的特征向量组成的第二语言标记语料集和由未标记有实体关系的扩展后的第二语言语料实体对的特征向量组成的第二语言未标记语料集。
可以提示用户对所述扩展后的第一语言语料实体对的特征向量标记实体关系,将经过标记的扩展后的第一语言语料实体对的特征向量作为第一语言标记语料集,将未经过标记的扩展后的第一语言语料实体对的特征向量作为第一语言未标记语料集。或者,可以将每个扩展后的第一语言语料实体对与标记有实体关系的第一语言实体对列表进行匹配,将匹配成功的扩展后的第一语言语料实体对的特征向量的实体关系标记为匹配成功的第一语言实体对列表中的实体对的实体关系。
第一语言标记语料集中扩展后的第一语言语料实体对的特征向量的数量可以小于第一语言未标记语料集中扩展后的第一语言语料实体对的特征向量的数量。
类似地,可以提示用户对所述扩展后的第二语言语料实体对的特征向量标记实体关系,将经过标记的扩展后的第二语言语料实体对的特征向量作为第二语言标记语料集,将未经过标记的扩展后的第二语言语料实体的特征向量对作为第二语言未标记语料集。或者,可以将每个扩展后的第二语言语料实体对与标记有实体关系的第二语言实体对列表进行匹配,将匹配成功的扩展后的第二语言语料实体对的特征向量的实体关系标记为匹配成功的第二语言实体对列表中的实体对的实体关系。
第二语言标记语料集中扩展后的第二语言语料实体对的特征向量的数量可以小于第二语言未标记语料集中扩展后的第二语言语料实体对的特征向量的数量。
实体关系可以包括地理位置关系、局部整体关系、组织结构从属关系、人物关系、类属关系、制造使用关系和转喻关系。
训练模块205,用于利用所述第一语言标记语料集、所述第一语言未标记语料集、所述第二语言标记语料集、所述第二语言未标记语料集协同训练第一语言分类器和第二语言分类器。
在一具体实施例中,所述第一语言分类器和所述第二语言分类器可以包括SVM(Support Vector Machines,支持向量机)分类器、CRF(Conditional Random Fields,条件随机场)分类器等。
在一具体实施例中,所述利用所述第一语言标记语料集、所述第一语言未标记语料集、所述第二语言标记语料集、所述第二语言未标记语料集协同训练第一语言分类器和第二语言分类器可以包括:
(1)用所述第一语言标记语料集(记为Lc)训练所述第一语言分类器。例如,用已标记实体关系的中文语料实体对(即中文已标记语料集)训练中文分类器。具体地,将中文语料实体对的中文语料特征向量作为中文分类器的输入向量,将已标记实体关系对应的特征向量作为中文分类器的输出向量,中文语料库包括中文已标记语料集和中文未标记语料集。
(2)用所述第一语言分类器对所述第一语言未标记语料集(记为Uc)中的实体对进行分类,得到所述第一语言未标记语料集Uc中的实体对的实体关系和分类置信度。例如,用中文分类器标记中文未标记语料集中的中文实体对“亥姆霍兹联合会-安全研究中心”为组织结构从属关系。
(3)按照分类置信度从高到低的顺序从所述第一语言未标记语料集Uc中选择第一预设数量的实体对,记为Ec,并将Ec翻译为所述第二语言,得到Ecte。例如,通过中文分类器输出的中文实体对在各个实体关系上的概率值计算中文实体对在各个实体关系上的概率分布的熵值,将熵值的倒数作为分类置信度,选择中文未标记语料集中分类置信度最高的10个标有实体关系的中文语料实体对,并将分类置信度最高的10个标有实体关系的中文语料实体对翻译为英文(下称英文译文)。具体地,中文分类器输出的中文实体对在k个实体关系上的概率值为{P1,P2,…,Pi,…Pk},其中Pi表示中文实体对为实体关系i的概率,则熵值H为:
(4)用所述第二语言标记语料集(记为Le)训练所述第二语言分类器。
(5)用所述第二语言分类器对所述第二语言未标记语料集(记为Ue)中的实体对进行分类,得到所述第二语言未标记语料集Ue中的实体对的实体关系和分类置信度。
(6)按照分类置信度从高到低的顺序从所述第二语言未标记语料集Ue中选择所述第一预设数量的实体对,记为Ee,并将Ee翻译为第一语言,得到Eetc。例如,通过英文分类器输出的英文实体对在各个实体关系上的概率值计算英文实体对在各个实体关系上的概率分布的熵值,将熵值的倒数作为分类置信度,选择英文未标记语料集中分类置信度最高的10个标有实体关系的英文语料实体对,并将分类置信度最高的10个标有实体关系的英文语料实体对翻译为中文(下称中文译文)。
(7)将Ec和Eetc添加到所述第一语言标记语料集Lc。例如,将中文未标记语料集中分类置信度最高的10个标有实体关系的中文语料实体对和标有实体关系的中文译文添加到中文标记语料集。
(8)将Ee和Ecte添加到所述第二语言标记语料集Le。例如,将未标记语料集中分类置信度最高的10个标有实体关系的英文语料实体对和标有实体关系的英文译文添加到英文标记语料集。
(9)从所述第一语言未标记语料集Uc中删除Ec,从所述第二语言未标记语料集Ue中删除Ee。
循环执行上述步骤,直到所述第一语言未标记语料集Uc和所述第二语言未标记语料集Ue为空集。
第二提取模块206,用于将待处理的使用所述第一语言和所述第二语言的混合语句翻译为所述第一语言,得到第一语言目标语句,提取所述第一语言目标语句中的第一语言目标实体对和所述第一语言目标实体对的特征向量。
本实施例中,提取第一语言目标语句中的第一语言目标实体对的方法与上述提取第一语言语料文本中的第一语言语料实体对的方法相同,提取第一语言目标实体对的特征向量的方法与上述提取第一语言语料实体对的特征向量的方法相同,此处不再赘述。
第一分类模块207,用于根据所述第一语言目标实体对的特征向量,利用所述第一语言分类器对所述第一语言目标实体对进行分类,得到所述第一语言目标实体对的分类结果和分类置信度。
例如,用经过训练的中文分类器对中文目标实体对的特征向量进行分类,得到中文目标实体对在各个实体关系的概率,并确定概率最大的实体关系为中文目标实体对的实体关系。
第三提取模块208,用于将所述混合语句翻译为所述第二语言,得到第二语言目标语句,提取所述第二语言目标语句中的第二语言目标实体对和所述第二语言目标实体对的特征向量。
例如,通过机器翻译(如谷歌翻译)将由中文词和英文词组成的混合语句翻译为英文,得到英文目标语句,提取英文目标语句的英文目标实体对和英文目标实体对的特征向量。本实施例中,提取第二语言目标语句中的第二语言目标实体对的方法与上述提取第二语言语料文本中的第二语言语料实体对的方法相同,提取第二语言目标实体对的特征向量的方法与上述提取第一语言语料实体对的特征向量的方法类似,此处不再赘述。
第二分类模块209,用于根据所述第二语言目标实体对的特征向量,利用所述第二语言分类器对所述第二语言目标实体对进行分类,得到所述第二语言目标实体对的分类结果和分类置信度。
例如,利用经过训练的英文分类器根据英文目标实体对的特征向量对英文目标实体对进行分类,得到英文目标实体对在各个实体关系的概率,并确定概率最大的实体关系为英文目标实体对的实体关系。
确定模块210,用于根据所述第一语言目标实体对的分类结果和分类置信度、所述第二语言目标实体对的分类结果和分类置信度确定所述混合语句的混合实体对和所述混合实体对的实体关系。
所述第一语言目标实体对的分类置信度由第一语言目标实体对中所述第一语言实体对在所述第一语言实体对的实体关系中的概率确定,所述第二语言目标实体对的分类置信度由第二语言目标实体对中所述第二语言实体对在所述第二语言实体对的实体关系中的概率确定。
在一具体实施例中,若所述第一语言目标实体对的分类置信度大于所述第二语言目标实体对的分类置信度,将所述第一语言目标实体对中所述第一语言实体对确定为所述混合语句的混合实体对,将所述第一实体对的实体关系确定为所述混合实体对的实体关系;
若所述第二语言目标实体对的分类置信度大于所述第一语言目标实体对的分类置信度,将所述第二语言目标实体对中所述第二语言实体对确定为所述混合语句的混合实体对,将所述第二实体对的实体关系确定为所述混合实体对的实体关系;
其中,分类置信度Z为:
其中,H为实体对在各个实体关系上的概率分布的熵值,分类器输出的实体对在k个实体关系上的概率值为{P1,P2,…Pk},其中Pj为{P1,P2,…Pk}中的最大值。
实施例二的文本信息提取装置20根据第一语言语料文本、第二语言语料文本得到第一语言标记语料集、第一语言未标记语料集、第二语言标记语料集、第二语言未标记语料集,利用各个语料集协同训练第一语言分类器和第二语言分类器,利用第一语言分类器对根据混合语句中得到的第一语言目标实体对进行分类,利用第二语言分类器对根据混合语句得到的第二语言目标实体对进行分类,根据第一语言目标实体对和第二语言目标实体对的分类结果得到混合语句的混合实体对的实体关系。实施例二实现了从使用两种不同语言的文本中准确地提取出实体关系。
实施例三
图3为本发明实施例三提供的计算机设备的示意图。所述计算机设备30包括存储器301、处理器302以及存储在所述存储器301中并可在所述处理器302上运行的计算机程序303,例如文本信息提取程序。所述处理器302执行所述计算机程序303时实现上述文本信息提取方法实施例中的步骤,例如图1所示的S101-S111。或者,该计算机程序被处理器执行时实现上述装置实施例中各模块的功能,例如图2中的模块201-210。
示例性的,所述计算机程序303可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器301中,并由所述处理器302执行,以完成本方法。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序303在所述计算机设备30中的执行过程。例如,所述计算机程序303可以被分割成图2中的识别模块201、扩展模块202、第一提取模块203、标记模块204、训练模块205、第二提取模块206、第一分类模块207、第三提取模块208、第二分类模块209、确定模块210,各模块具体功能参见实施例二。
本领域技术人员可以理解,所述示意图3仅仅是计算机设备30的示例,并不构成对计算机设备30的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机设备30还可以包括输入输出设备、网络接入设备、总线等。
所称处理器302可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等,所述处理器302是所述计算机设备30的控制中心,利用各种接口和线路连接整个计算机设备30的各个部分。
所述存储器301可用于存储所述计算机程序303,所述处理器302通过运行或执行存储在所述存储器301内的计算机程序或模块,以及调用存储在存储器301内的数据,实现所述计算机设备30的各种功能。所述存储器301可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备30的使用所创建的数据(比如音频数据等)等。此外,存储器301可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
所述计算机设备30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他模块或步骤,单数不排除复数。系统权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种文本信息提取方法,其特征在于,所述方法包括:
识别第一语言语料文本中每个语句包含的第一语言实体和第二语言语料文本中每个语句包含的第二语言实体,将所述第一语言语料文本中每两个在同一语句中且之间包括至少一个动词的第一语言实体组成第一语言语料实体对,将所述第二语言语料文本中每两个在同一语句中且之间包括至少一个动词的第二语言实体组成第二语言语料实体对;
将所述第一语言语料文本的每个语句中所述第一语言语料实体对的两个第一语言实体之间包含所述两个第一语言实体的部分翻译为第二语言,得到第二语言扩展语句,将所述第二语言语料文本的每个语句中所述第二语言语料实体对的两个第二语言实体之间包含所述两个第二语言实体的部分翻译为第一语言,得到第一语言扩展语句;
将所述第一语言扩展语句加入所述第一语言语料文本,得到扩展后的第一语言语料文本,根据扩展后的第一语言语料文本得到扩展后的第一语言语料实体对,将所述第二语言扩展语句加入所述第二语言语料文本,得到扩展后的第二语言语料文本,根据扩展后的第二语言语料文本得到扩展后的第二语言语料实体对;
提取所述扩展后的第一语言语料实体对的特征向量,提取所述扩展后的第二语言语料实体对的特征向量;
对所述扩展后的第一语言语料实体对的特征向量中的部分特征向量标记实体关系,得到由标记有实体关系的扩展后的第一语言语料实体对的特征向量组成的第一语言标记语料集和由未标记有实体关系的扩展后的第一语言语料实体对的特征向量组成的第一语言未标记语料集,对所述扩展后的第二语言语料实体对的特征向量中的部分特征向量标记实体关系,得到由标记有实体关系的扩展后的第二语言语料实体对的特征向量组成的第二语言标记语料集和由未标记有实体关系的扩展后的第二语言语料实体对的特征向量组成的第二语言未标记语料集;
利用所述第一语言标记语料集、所述第一语言未标记语料集、所述第二语言标记语料集、所述第二语言未标记语料集协同训练第一语言分类器和第二语言分类器;
将待处理的使用所述第一语言和所述第二语言的混合语句翻译为所述第一语言,得到第一语言目标语句,提取所述第一语言目标语句中的第一语言目标实体对和所述第一语言目标实体对的特征向量;
根据所述第一语言目标实体对的特征向量,利用所述第一语言分类器对所述第一语言目标实体对进行分类,得到所述第一语言目标实体对的分类结果和分类置信度;
将所述混合语句翻译为所述第二语言,得到第二语言目标语句,提取所述第二语言目标语句中的第二语言目标实体对和所述第二语言目标实体对的特征向量;
根据所述第二语言目标实体对的特征向量,利用所述第二语言分类器对所述第二语言目标实体对进行分类,得到所述第二语言目标实体对的分类结果和分类置信度;
根据所述第一语言目标实体对的分类结果和分类置信度、所述第二语言目标实体对的分类结果和分类置信度确定所述混合语句的混合实体对和所述混合实体对的实体关系;
所述第一语言目标实体对的分类置信度Z为:
其中,H为所述第一语言目标实体对的概率分布的熵值,所述第一语言分类器输出的实体对在k个实体关系上的概率值为{P1,P2,…Pk},其中Pj为{P1,P2,…Pk}中的最大值。
2.如权利要求1所述的方法,其特征在于,所述提取所述扩展后的第一语言语料实体对的特征向量包括:
确定所述扩展后的第一语言语料实体对的关系词;
确定所述扩展后的第一语言语料实体对的两个第一语言实体的邻近词和所述关系词的邻近词;
根据所述关系词提取所述扩展后的第一语言语料实体对所在语句的句法特征;
计算所述扩展后的第一语言语料实体对的词间距离;
将所述两个第一语言实体、所述两个第一语言实体的邻近词、所述关系词的邻近词、所述句法特征、所述词间距离组合为所述扩展后的第一语言语料实体对的特征向量。
3.如权利要求2所述的方法,其特征在于,所述确定所述扩展后的第一语言语料实体对的关系词包括:
若所述扩展后的第一语言语料实体对的两个第一语言实体之间存在一个动词,将所述动词作为所述扩展后的第一语言语料实体对的关系词;
若所述扩展后的第一语言语料实体对的两个第一语言实体之间存在多个动词,则选择所述多个动词中与所述扩展后的第一语言语料实体对的关系强度最大的动词作为所述扩展后的第一语言语料实体对的关系词。
4.如权利要求2所述的方法,其特征在于,所述根据所述关系词提取所述扩展后的第一语言语料实体对所在语句的句法特征包括:
对所述扩展后的第一语言语料实体对所在语句进行依存句法分析,得到所述扩展后的第一语言语料实体对所在语句的核心词、所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的依存关系;
计算所述核心词与所述关系词的距离;
根据所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的依存关系确定所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的距离。
5.如权利要求4所述的方法,其特征在于,所述根据所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的依存关系确定所述扩展后的第一语言语料实体对的每个第一语言实体与所述关系词的距离包括:
若所述扩展后的第一语言语料实体对的第一个第一语言实体与所述关系词的依存关系为主谓关系,则所述第一个第一语言实体与所述关系词的距离为1,若所述第一个第一语言实体与所述关系词的依存关系为定中关系,则所述第一个第一语言实体与所述关系词的距离为-1,若所述第一个第一语言实体与所述关系词的依存关系为主谓关系和定中关系以外的其他关系,则所述第一个第一语言实体与所述关系词的距离为0;
若所述扩展后的第一语言语料实体对的第二个第一语言实体与所述关系词的依存关系为动宾关系,则所述第二个第一语言实体与所述关系词的距离为1,若所述第二个第一语言实体与所述关系词的依存关系为定中关系,则所述第二个第一语言实体与所述关系词的距离为-1,若所述第二个第一语言实体与所述关系词的依存关系为动宾关系和定中关系以外的其他关系,则所述第二个第一语言实体与所述关系词的距离为0。
6.如权利要求2所述的方法,其特征在于,所述计算所述扩展后的第一语言语料实体对的词间距离包括:
根据所述扩展后的第一语言语料实体对的第一个第一语言实体与第二个第一语言实体之间的词语的数量确定所述第一个第一语言实体与所述第二个第一语言实体的距离;
根据所述第一个第一语言实体与所述关系词之间的词语的数量确定所述第一个第一语言实体与所述关系词的距离;
根据所述第二个第一语言实体与所述关系词之间的词语的数量确定所述第二个第一语言实体与所述关系词的距离。
7.如权利要求1所述的方法,其特征在于,所述利用所述第一语言标记语料集、所述第一语言未标记语料集、所述第二语言标记语料集、所述第二语言未标记语料集协同训练第一语言分类器和第二语言分类器包括:
用所述第一语言标记语料集训练所述第一语言分类器;
用所述第一语言分类器对所述第一语言未标记语料集中的实体对进行分类,得到所述第一语言未标记语料集中的实体对的实体关系和分类置信度;
按照分类置信度从高到低的顺序从所述第一语言未标记语料集中选择第一预设数量的实体对Ec,将Ec翻译为所述第二语言,得到Ecte;
用所述第二语言标记语料集训练所述第二语言分类器;
用所述第二语言分类器对所述第二语言未标记语料集中的实体对进行分类,得到所述第二语言未标记语料集中的实体对的实体关系和分类置信度;
按照分类置信度从高到低的顺序从所述第二语言未标记语料集中选择所述第一预设数量的实体对Ee,将Ee翻译为所述第一语言,得到Eetc;
将Ec和Eetc添加到所述第一语言标记语料集;
将Ee和Ecte添加到所述第二语言标记语料集;
从所述第一语言未标记语料集中删除Ec,从所述第二语言未标记语料集中删除Ee;
循环执行上述步骤,直到所述第一语言未标记语料集和所述第二语言未标记语料集为空集。
8.一种文本信息提取装置,其特征在于,所述装置包括:
识别模块,用于识别第一语言语料文本中每个语句包含的第一语言实体和第二语言语料文本中每个语句包含的第二语言实体,将所述第一语言语料文本中每两个在同一语句中且之间包括至少一个动词的第一语言实体组成第一语言语料实体对,将所述第二语言语料文本中每两个在同一语句中且之间包括至少一个动词的第二语言实体组成第二语言语料实体对;
扩展模块,用于将所述第一语言语料文本的每个语句中所述第一语言语料实体对的两个第一语言实体之间包含所述两个第一语言实体的部分翻译为第二语言,得到第二语言扩展语句,将所述第二语言语料文本的每个语句中所述第二语言语料实体对的两个第二语言实体之间包含所述两个第二语言实体的部分翻译为第一语言,得到第一语言扩展语句,将所述第一语言扩展语句加入所述第一语言语料文本,得到扩展后的第一语言语料文本,根据扩展后的第一语言语料文本得到扩展后的第一语言语料实体对,将所述第二语言扩展语句加入所述第二语言语料文本,得到扩展后的第二语言语料文本,根据扩展后的第二语言语料文本得到扩展后的第二语言语料实体对;
第一提取模块,用于提取所述扩展后的第一语言语料实体对的特征向量,提取所述扩展后的第二语言语料实体对的特征向量;
标记模块,用于对所述扩展后的第一语言语料实体对的特征向量中的部分特征向量标记实体关系,得到由标记有实体关系的扩展后的第一语言语料实体对的特征向量组成的第一语言标记语料集和由未标记有实体关系的扩展后的第一语言语料实体对的特征向量组成的第一语言未标记语料集,对所述扩展后的第二语言语料实体对的特征向量中的部分特征向量标记实体关系,得到由标记有实体关系的扩展后的第二语言语料实体对的特征向量组成的第二语言标记语料集和由未标记有实体关系的扩展后的第二语言语料实体的特征向量对组成的第二语言未标记语料集;
训练模块,用于利用所述第一语言标记语料集、所述第一语言未标记语料集、所述第二语言标记语料集、所述第二语言未标记语料集协同训练第一语言分类器和第二语言分类器;
第二提取模块,用于将待处理的使用所述第一语言和所述第二语言的混合语句翻译为所述第一语言,得到第一语言目标语句,提取所述第一语言目标语句中的第一语言目标实体对和所述第一语言目标实体对的特征向量;
第一分类模块,用于根据所述第一语言目标实体对的特征向量,利用所述第一语言分类器对所述第一语言目标实体对进行分类,得到所述第一语言目标实体对的分类结果和分类置信度;
第三提取模块,用于将所述混合语句翻译为所述第二语言,得到第二语言目标语句,提取所述第二语言目标语句中的第二语言目标实体对和所述第二语言目标实体对的特征向量;
第二分类模块,用于根据所述第二语言目标实体对的特征向量,利用所述第二语言分类器对所述第二语言目标实体对进行分类,得到所述第二语言目标实体对的分类结果和分类置信度;
确定模块,用于根据所述第一语言目标实体对的分类结果和分类置信度、所述第二语言目标实体对的分类结果和分类置信度确定所述混合语句的混合实体对和所述混合实体对的实体关系;
所述第一语言目标实体对的分类置信度Z为:
其中,H为所述第一语言目标实体对的概率分布的熵值,所述第一语言分类器输出的实体对在k个实体关系上的概率值为{P1,P2,…Pk},其中Pj为{P1,P2,…Pk}中的最大值。
9.一种计算机设备,其特征在于,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1-7中任一项所述文本信息提取方法。
10.一种计算机存储介质,所述计算机存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述文本信息提取方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910995457.3A CN110888940B (zh) | 2019-10-18 | 2019-10-18 | 文本信息提取方法、装置、计算机设备及存储介质 |
PCT/CN2019/117231 WO2021072848A1 (zh) | 2019-10-18 | 2019-11-11 | 文本信息提取方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910995457.3A CN110888940B (zh) | 2019-10-18 | 2019-10-18 | 文本信息提取方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110888940A CN110888940A (zh) | 2020-03-17 |
CN110888940B true CN110888940B (zh) | 2022-10-25 |
Family
ID=69746326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910995457.3A Active CN110888940B (zh) | 2019-10-18 | 2019-10-18 | 文本信息提取方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110888940B (zh) |
WO (1) | WO2021072848A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111813942B (zh) * | 2020-07-23 | 2022-07-12 | 思必驰科技股份有限公司 | 实体分类方法和装置 |
CN113361280B (zh) * | 2021-06-30 | 2023-10-31 | 北京百度网讯科技有限公司 | 训练模型的方法、预测方法、装置、电子设备以及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733658A (zh) * | 2017-09-01 | 2018-11-02 | 安徽广播电视大学 | 组织机构名汉英翻译方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559181A (zh) * | 2013-11-14 | 2014-02-05 | 苏州大学 | 一种双语语义关系分类模型的建立方法和系统 |
US10431214B2 (en) * | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
CN105678327A (zh) * | 2016-01-05 | 2016-06-15 | 北京信息科技大学 | 一种面向中文专利的实体间非分类关系抽取方法 |
US10255269B2 (en) * | 2016-12-30 | 2019-04-09 | Microsoft Technology Licensing, Llc | Graph long short term memory for syntactic relationship discovery |
CN108460026B (zh) * | 2017-02-22 | 2021-02-12 | 华为技术有限公司 | 一种翻译方法及装置 |
US20180314756A1 (en) * | 2017-04-26 | 2018-11-01 | Linkedln Corporation | Online social network member profile taxonomy |
US11023461B2 (en) * | 2018-01-19 | 2021-06-01 | Servicenow, Inc. | Query translation |
CN109933781A (zh) * | 2018-10-16 | 2019-06-25 | 北京信息科技大学 | 基于sao结构的中文专利文本实体关系抽取方法 |
CN109902303B (zh) * | 2019-03-01 | 2023-05-26 | 腾讯科技(深圳)有限公司 | 一种实体识别方法及相关设备 |
-
2019
- 2019-10-18 CN CN201910995457.3A patent/CN110888940B/zh active Active
- 2019-11-11 WO PCT/CN2019/117231 patent/WO2021072848A1/zh active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733658A (zh) * | 2017-09-01 | 2018-11-02 | 安徽广播电视大学 | 组织机构名汉英翻译方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110888940A (zh) | 2020-03-17 |
WO2021072848A1 (zh) | 2021-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10657332B2 (en) | Language-agnostic understanding | |
CN100371927C (zh) | 使用机器翻译技术标识释义的方法和系统 | |
US8380492B2 (en) | System and method for text cleaning by classifying sentences using numerically represented features | |
CN103154936B (zh) | 用于自动化文本校正的方法和系统 | |
TWI536181B (zh) | 在多語文本中的語言識別 | |
US20160162473A1 (en) | Localization complexity of arbitrary language assets and resources | |
CN110096573B (zh) | 一种文本解析方法及装置 | |
CN113569011B (zh) | 文本匹配模型的训练方法、装置、设备及存储介质 | |
CN112818093A (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
KR20200087977A (ko) | 멀티모달 문서 요약 시스템 및 방법 | |
CN110797012B (zh) | 一种信息提取方法、设备及存储介质 | |
Abdurakhmonova et al. | Linguistic functionality of Uzbek Electron Corpus: uzbekcorpus. uz | |
Hamed et al. | The importance of neutral class in sentiment analysis of Arabic tweets | |
CN110888940B (zh) | 文本信息提取方法、装置、计算机设备及存储介质 | |
CN103678288A (zh) | 一种专名自动翻译的方法 | |
CN114722832A (zh) | 一种摘要提取方法、装置、设备以及存储介质 | |
Yusuf et al. | Sentiment Analysis in Low-Resource Settings: A Comprehensive Review of Approaches, Languages, and Data Sources | |
Shrestha | Codeswitching detection via lexical features in conditional random fields | |
WO2023103943A1 (zh) | 图片处理方法、装置及电子设备 | |
Yin | Fuzzy information recognition and translation processing in English interpretation based on a generalized maximum likelihood ratio algorithm | |
CN112668315B (zh) | 一种文本自动生成方法、系统、终端及存储介质 | |
Seresangtakul et al. | Thai-Isarn dialect parallel corpus construction for machine translation | |
Bani et al. | Combining conditional random fields and word embeddings to improve Amazigh part-of-speech Tagging | |
CN112182228A (zh) | 一种短文本热点主题挖掘与概括方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |