CN109597878A - 一种确定文本相似度的方法及相关装置 - Google Patents

一种确定文本相似度的方法及相关装置 Download PDF

Info

Publication number
CN109597878A
CN109597878A CN201811347339.3A CN201811347339A CN109597878A CN 109597878 A CN109597878 A CN 109597878A CN 201811347339 A CN201811347339 A CN 201811347339A CN 109597878 A CN109597878 A CN 109597878A
Authority
CN
China
Prior art keywords
entity
candidate
target
text
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811347339.3A
Other languages
English (en)
Other versions
CN109597878B (zh
Inventor
姜庭欣
陈伟然
郭永红
何佳
王志强
杨冠梅
段博超
王希桢
李静毅
刘乾楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Enjoy Wisdom Technology Co Ltd
Original Assignee
Beijing Enjoy Wisdom Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Enjoy Wisdom Technology Co Ltd filed Critical Beijing Enjoy Wisdom Technology Co Ltd
Priority to CN201811347339.3A priority Critical patent/CN109597878B/zh
Publication of CN109597878A publication Critical patent/CN109597878A/zh
Application granted granted Critical
Publication of CN109597878B publication Critical patent/CN109597878B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种确定文本相似度的方法,该方法实施例包括:获取目标文本及候选数据集,候选数据集包括多个数组,多个数组中的每个数组表示一个实体的语义向量;实体被包含于候选文本中;提取目标文本中的目标实体集合,候选数据集的多个数组所表示的实体集合包含目标实体集合;根据候选数据集确定目标实体集合中的每一个目标实体的语义向量与每一篇候选文本中的每一个实体的语义向量的夹角余弦值,得到实体相似度;根据实体相似度,确定目标文本与每一篇候选文本的目标相似度。本申请实施例中,相似度计算的准确率较高。

Description

一种确定文本相似度的方法及相关装置
技术领域
本发明涉及数据处理领域,具体涉及一种确定文本相似度的方法及相关装置。
背景技术
随着技术爆炸时代的来临,信息重要性不断增强,数据量不断增长,信息检索就尤为重要。
用户常常需要根据目标文本检索数据库,在数据库中查询与该目标文本相似的候选文本,但当前的检索方法大都是基于文本检索、文本检索着眼于文本字符的匹配。例如,用户确定目标文本中的关键词,输入关键词,然后检索系统根据关键词与数据库中的候选文本进行关键词匹配,关键词数量匹配的越高的候选文本与目标文本的相似度越高。
在当前的方式中,需要用户确定关键词,关键词的选取对检索结果影响很大,而且关键词的选取具有主观性,并不一定是目标文本实际内容的理解,因此,目标文本与候选文本的相似度的准确率较低。
发明内容
有鉴于此,本发明实施例提供了一种确定文本相似度的方法及相关装置,相对于现有技术,仅通过用户主观确定的关键词,通过关键词匹配确定目标文本与候选文本的相似度的确定方法,需要受到用户主观理解的影响,本申请实施例提供的方法更客观,是目标文本与候选文本真实内容的表达,因此,相似度计算更准确。
第一方面,本申请实施例提供了一种确定文本相似度的方法,包括:
获取目标文本及候选数据集,所述候选数据集包括多个数组,所述多个数组中的每个数组表示一个实体的语义向量;所述实体被包含于候选文本中;
提取所述目标文本中的目标实体集合,所述候选数据集的多个数组所表示的实体集合包含所述目标实体集合;
根据所述候选数据集确定所述目标实体集合中的每一个目标实体的语义向量与每一篇所述候选文本中的每一个候选实体的语义向量的夹角余弦值,得到实体相似度;
根据所述实体相似度,确定所述目标文本与每一篇候选文本的目标相似度。
在一种可能的实现方式中,所述获取目标文本及候选数据集之后,所述根据所述实体相似度,确定所述目标文本与每一篇候选文本的目标相似度之前,所述方法还包括:
确定所述每一个目标实体的语义向量的终点与所述每一篇所述候选文本中的每一个实体的语义向量的终点之间的目标距离;
所述根据所述候选数据集确定所述目标实体集合中的每一个目标实体的语义向量与每一篇所述候选文本中的每一个实体的语义向量的夹角余弦值,得到实体相似度,包括:
根据所述候选数据集确定所述目标实体集合中的每一个目标实体的语义向量与每一篇所述候选文本中的每一个实体的语义向量的夹角余弦值和所述目标距离得到所述实体相似度。
在一种可能的实现方式中,所述根据所述实体相似度,确定所述目标文本与每一篇候选文本的目标相似度,包括:
针对每一篇候选文本,将所述目标文本中每一个目标实体的实体相似度进行累加,得到第一累加相似度;
根据所述第一累加相似度,确定所述目标文本与每一篇候选文本的目标相似度。
在一种可能的实现方式中,所述方法还包括:
提取所述目标文本中目标实体之间的关系,得到目标关系集合;
获取每篇候选文本中的候选关系集合;根据所述实体相似度确定所述目标关系集合中的每个关系与所述候选关系集合中的每个候选关系的关系相似度;
所述根据所述实体相似度,确定所述目标文本与每一篇候选文本的目标相似度,包括:
根据所述实体相似度和关系相似度,确定所述目标文本与每一篇候选文本的目标相似度。
在一种可能的实现方式中,所述关系包括二元关系至X元关系,其中,X为大于等于2的整数,所述二元关系包括两个实体及两个实体之间的关系,所述X元关系包括(X-1)个二元关系,且所述(X-1)个二元关系通过关联实体连接。
在一种可能的实现方式中,所述方法还包括:
提取所述目标文本中的每两个目标实体之间的二元关系,得到目标文本的目标二元关系集合;
获取每篇候选文本中的候选二元关系集合;
根据所述实体相似度确定所述目标二元关系集合中的每个二元关系与所述候选二元关系集合中的每个候选二元关系的二元关系相似度;
将所述目标文本中每一个二元关系的二元关系相似度进行累加,得到第二累加相似度;
所述根据所述第一累加相似度,确定所述目标文本与每一篇候选文本的目标相似度,包括:
根据所述第一累加相似度和所述第二累加相似度确定所述目标文本与每一篇候选文本的目标相似度。
在一种可能的实现方式中,所述提取所述目标文本中的每两个实体之间的二元关系,得到目标文本的目标二元关系集合之后,所述方法还包括:
根据所述目标二元关系集合,确定目标三元关系集合,所述目标三元关系集合中包含多个三元关系,所述三元关系包括至少两个二元关系,且所述至少两个二元关系中有相同的实体;
获取每篇候选文本中的候选三元关系集合;
根据所述二元关系相似度确定所述目标三元关系集合中的每个三元关系与所述候选三元关系集合中的每个候选三元关系的三元关系相似度;
将所述目标文本中每一个三元关系的三元关系相似度进行累加,得到第三累加相似度;
所述根据所述第一累加相似度和所述第二累加相似度确定所述目标文本与每一篇候选文本的目标相似度,包括:
所述根据所述第一累加相似度、所述第二累加相似度和所述第三累加相似度确定所述目标文本与每一篇候选文本的目标相似度。
在一种可能的实现方式中,所述目标实体包括特定实体,所述方法还包括:
确定所述特定实体的实体相似度;
针对每一篇候选文本,将所述特定实体的所述实体相似度进行累加,得到第四累加相似度;
所述根据所述第一累加相似度,确定所述目标文本与每一篇候选文本的目标相似度,包括:
根据所述第一累加相似度和所述第四累加相似度确定所述目标文本与每一篇候选文本的目标相似度。
在一种可能的实现方式中,所述获取候选数据集,包括:
获取文本集合,所述文本集合包括n篇候选文本;
提取所述n篇候选文本中每篇候选文本中的实体,得到m个实体;
根据所述n篇候选文本及每篇候选文本所包含的实体,确定目标矩阵,所述目标矩阵包括n行和m列,所述N行中的每一行表示一篇候选文本,所述M列中的每一列表示一个实体,所述n和所述m为大于或者等于2的正整数;
对所述目标矩阵进行奇异值分解,得到所述候选数据集,所述候选数据集为矩阵。
在一种可能的实现方式中,所述目标文本为结构化的文本,所述获取目标文本,包括:
获取目标文本;
将所述目标文本输入到实体提取模型,通过所述实体提取模型识别所述目标文本中的实体;
将已识别到所述实体的目标文本输入到关系提取模型,通过所述关系提取模型提取所述实体之间的关系;
根据所述实体及所述实体之间的关系,对所述目标文本进行结构化表示,生成结构化的文本。
在一种可能的实现方式中,所述方法还包括:
根据所述目标相似度确定所述目标文本与每一篇候选文本的新颖度,所述新颖度与所述目标相似度反相关。
在一种可能的实现方式中,所述提取所述目标文本中的目标实体集合,包括:
将所述目标文本作为实体提取模型的输入,通过所述实体提取模型提取所述目标文本中的目标实体集合,所述实体提取模型是对所述第一语料集合进行训练得到的,所述第一语料集合是对第一文本集合中的每篇文本进行实体语料标注得到的。
在一种可能的实现方式中,所述提取所述目标文本中的每两个实体之间的关系,包括:
将已识别到所述目标实体集合的目标文本输入到关系提取模型,通过所述关系提取模型提取所述目标实体之间的关系;所述关系提取模型是对所述第二语料信息集合进行训练的,所述第二语料集合是对所述第二文本集合的每篇文本进行关系语料标注及实体标注得到的。
第二方面,本申请实施例提供了一种确定文本相似度的装置,包括:
获取模块,用于获取目标文本及候选数据集,所述候选数据集包括多个数组,所述多个数组中的每个数组表示一个实体的语义向量;所述每个数组包括多个元素,所述多个元素中的每个元素用于表示一篇候选文本;提取模块,用于提取所述获取模块获取的所述目标文本中的目标实体集合,所述候选数据集的多个数组所表示的实体集合包含所述目标实体集合;
第一确定模块,用于根据所述获取模块获取的所述候选数据集确定所述提取模块提取的所述目标实体集合中的每一个目标实体与每一篇所述候选文本中的每一个实体的语义向量的夹角值,确定实体相似度;
第二确定模块,根据所述第一确定模块确定的所述实体相似度,确定所述目标文本与每一篇候选文本的目标相似度。
第三方面,本申请实施例提供了一种电子设备,包括:
存储器和处理器;
所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行上述第一方面所述的方法。
第四方面,本申请实施例提供了一种计算机存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行上述第一方面所述的方法。
本申请实施例中,电子设备获取目标文本及候选数据集,候选数据集包括多个数组,该多个数组中的每个数组表示一个实体的语义向量;所述实体被包含于候选文本中;进一步的,提取所述目标文本中的目标实体集合,候选数据集的多个数组所表示的实体集合包含所述目标实体集合;根据所述候选数据集确定所述目标实体集合中的每一个目标实体的语义向量与每一篇所述候选文本中的每一个候选实体的语义向量的夹角余弦值,得到实体相似度;本实施例中,可以计算每一个目标实体与候选文本中每一个候选实体的相似度,根据所述实体相似度,确定所述目标文本与每一篇候选文本的目标相似度。本实施例中,确定目标文本与候选文本的相似度考虑到目标文本与候选文本中的每一个实体的相似度,相似度的确定更能真实表现出目标文本的内容与候选文本内容的相似度,相对于现有技术,仅通过用户主观确定的关键词,通过关键词匹配确定目标文本与候选文本的相似度的确定方法,需要受到用户主观理解的影响,本申请实施例提供的方法更客观,是目标文本与候选文本真实内容表达的相似度,因此,相似度计算更准确。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1为本申请实施例一种训练结构化模型的方法的一个实施例的步骤流程示意图;
图2为本申请实施例一种文本结构化的方法的一个实施例的步骤流程示意图;
图3为本申请实施例中的目标结构的示意图;
图4为本申请实施例中的图像结构的示意图;
图5为本申请实施例中一种确定文本相似度的方法的一个实施例的步骤流程示意图;
图6为本申请实施例中的Word2vec模型训练过程示意图;
图7为本申请实施例中的一种确定文本新颖度的方法的一个实施例的步骤流程示意图;
图8为本申请实施例中的候选图谱的示意图;
图9为本申请实施例中获取图像信息的方法的一个实施例的步骤流程示意图;
图10为本申请实施例中候选文本中附图说明和附图的示意图;
图11为本申请实施例中第一候选图像和第二候选图像的拓扑示意图;
图12为本申请实施例中一种获取实体信息的方法的一个实施例的步骤流程示意图;
图13为本申请实施例中一种确定文本相似度的装置的一个结构示意图;
图14为本申请实施例中一种电子设备的一个实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
本申请实施例提供了一种文本结构化的方法,本申请实施例中的文本包括但不限定于技术文献、专利文献、学术论文等,对文本进行结构化表示后,得到结构化的信息(例如结构图)有助于用户对该文本内容的理解。或者,结构化的信息也可以作为用于检索信息的检索式,以专利文献为例,当前对于专利的检索方法大都是基于文本检索,文本检索着眼于文本字符的匹配,缺少对用户需求的理解与专利内容的理解,没有在内容理解的基础上进行检索。而通过本申请实施例中提供的方法将专利文本用结构化的方式进行表示,可以在专利内容理解的基础上进行检索,提高了检索的准确性。
本申请实施例中提供了一种文本结构化的方法,该方法应用于一种电子设备,该电子设备可以为服务器,也可以为终端设备,该终端设备包括但不限定于电脑、手机、掌上电脑等等。该电子设备获取待结构化的目标文本,例如,该目标文本可以为一篇专利,然后将所述目标文本输入到已训练好的实体提取模型,通过该实体提取模型识别所述目标文本中的实体;然后将已识别到实体的目标文本输入到已训练好的关系提取模型,通过该关系提取模型提取所述实体之间的关系;根据所述实体及所述实体之间的关系,对所述目标文本进行结构化表示,生成结构化的信息(或称为结构化的文本表示),例如,该结构化的文本表示可以为结构图或者流程图等等。本申请实施例中,通过已训练好的实体提取模型提取目标文本中的实体,再通过已训练好的关系提取模型提取所述实体之间的关系,根据实体及实体之间的关系自动的生成结构化的文本表示,利于对文本内容的理解,转换速度快,节省人工成本。
本申请实施例中提供的文本结构化的方法,为了方便理解,首先对本申请实施例中提供的词语进行解释说明:
实体:用于表示文本(如专利、论文)中用于表示特征的词,在如专利、论文中此类技术文献中,该实体为用于表示技术特征的词,实体包括组件、属性或属性值。
组件:表示文本中的组成部件,比如充电设备,存储器。
属性:表示组件的一个属性,比如充电设备的“电压”。
属性值:表示组件一个属性的取值,比如充电设备的电压是“240v”。
实体之间的关系:技术特征之间的关系,具体的,包括所述组件之间的关系,所述组件与所述属性之间的关系,或,所述属性与所述属性值的关系。
其中,1)组件之间的关系的种类包括但不限定于:
包含关系,举例,充电桩包含控制单元。
连接关系,举例,湿度调节装置连接制冷风扇。
2)组件与属性的关系:
组件具有某种属性,比如充电设备具有电压属性。
3)组件的属性与属性值的关系:
属性具有具体的属性值,比如电压“是”240v。
实施例1
请结合图1进行理解,下面对本申请实施例中提供的文本结构化的方法进行详细说明,该文本结构化的方法主要包括两个部分,第一个部分为训练结构化模型,第二个部分为将文本进行结构化表示。
首先、训练结构化模型;
该结构化模型包括用于提取实体的实体提取模型和用于提取所述实体之间的关系提取模型,训练的方法包括以下步骤:
步骤101、获取已标注的第一语料集合,所述第一语料集合是按照第一预置规则对第一文本集合中的每篇文本进行实体语料标注得到的。
该第一文本集合包括但不限定于技术文献、专利、学术论文等,本申请实施例中该第一文本集合以专利为例进行说明。例如,该第一文本集合可以包括一万篇专利,需要说明的是,该第一文本集合中包括的专利的数量只是举例而并非限定。
该第一语料集合是按照第一预置规则对第一文本集合中的每篇文本进行实体语料标注得到的。该第一预置规则为:将表示所述实体的第一词汇和表示非实体的第二词汇进行区分标注。
具体的,以第一文本集合中的一篇专利中的部分内容为例进行说明:
文本为:“一种汽车高位制动灯,其特征在于:包括矩形的安装座板(1),所述安装座板(1)上设有与之相匹配的外壳框(2),所述外壳框(2)内设有多个隔板(3)”,对于上述文本,标注语料成如下格式:
“一种汽车高位制动灯,包括矩形的/pre安/start装/in座/in板/end(/after1),所述/pre安/start装/in座/in板/end(/after 1)上设有与之相匹配的/pre外/start壳/in框/end(/after 2),所述/pre外/start壳/in框/end(/after 2)内设有多个/pre隔/start板/end(3),每个/pre隔/start板/end有一个/pre轴
/entity”/after
其中,该第一预置规则具体为:该第一标识(如:/start)代表实体的第一个字,第二标识(如:/end)代表实体的最后一个字,第三标识(如:/in)代表组件的位于第一标识start和第二标识end之间的字。第四标识(如:/entity)代表此组件只有一个字。第五标识(如:/pre)代表在第一标识start之前的字。第六标识(如:/after)代表在第二标识end之后的字除实体名之外的所有字,赋予统一的第七标识(如:/w)。
例如:包/w括/w矩/w形/w的/pre安/start装/in座/in板/end(/after
1/w)/w。
需要说明的是,本申请实施例中,对于语料标注的标识只是举例说明,并不造成对本申请实施例的限定性说明。
步骤102、对该第一语料集合进行训练,得到实体提取模型。
使用条件随机场(Conditional Random Field,CRF)模型训练该第一语料集合,得到模型参数,根据模型参数构建该实体提取模型。
CRF可以对汉字进行标注,即由字构成词(组词),不仅考虑了文字词语出现的频率信息,同时考虑上下文语境,具备较好的学习能力,因此其对歧义词和未登录词的识别都具有良好的效果。
步骤103、将第二文本集合作为所述实体提取模型的输入,通过所述实体提取模型识别所述第二文本集合中的实体信息。
该第二文本集合也为专利的集合。将第二文本集合作为该实体提取模型的输入,通过所述实体提取模型识别所述第二文本集合中的实体信息。
例如,该第二文本集合中的一篇专利的部分内容为:
一种电池监测管理装置,包括电池组(1)、监测模块(2)、CPU处理器(3)和显示器(4),对于此段文字,使用实体提取模型进行解析,得到:
一/w种/w电/w池/w监/w测/w管/w理/w装/w置/w,/w包/w括/w电/start池/in组/end(/w 1/w)/w、/w监/start测/in模/in块/end(/w 2/w)/w、/w CPU/start处/in理/in器/end(/w 3/w)/w和/w显/start示/in器/end(/w 4/w)/w
从上述文本的例子中提取出四个组件名:电池组、监测模块、CPU处理器和显示器。
步骤104、获取已标注的第二语料集合,所述第二语料集合是按照第二预置规则对所述第二文本集合的每篇文本进行关系语料标注及实体标注得到的。
在实体提取模型完成组件提取后,进行关系的语料标注,并转化成CRF模型的语料格式进行训练。
所述第二预置规则为:将表示所述实体的第一词汇、表示关系的第三词汇、表示非实体且非关系的第三词汇进行区分标注。
具体的,下面进行举例说明:
示例:所述安装座板(1)上设有与之相匹配的外壳框(2)
对该文本进行关系语料标准,标注成:
“所/w述/w安装座板/e(/w 1/w)/w上/w设/r_start有/r_end与/w之/w相/w匹/w配/w的/w外壳框/e(/w 2/w)/w”。
其中,第七标识(如:/w)为普通字符,第八标识(如:/e)是实体提取模型识别的组件,第九标识(如:/r_start)代表关系的开始字,第九标识(如:/r_end)代表关系的结束字。
需要说明的是,本申请实施例中,实体提取模型识别的是实体与实体之间的关系,本申请实施例中的例子中,实体提取模型识别出组件只是举例说明,该实体提取模型也可以识别属性及属性值,只不过在实施例中没有一一举例,因此,本申请实施例所示出的例子,不造成对本申请的限定性说明。
步骤105、对所述第二语料信息集合进行训练,得到所述关系提取模型。
使用CRF模型对该第二语料信息集合进行训练,得到模型参数,根据该模型参数构建该关系提取模型。其中,该模型参数包括正则化项参数a,取值L2,可以取得比L1更好的拟合效果。hyper-parameter参数c,可以取值3,可以尽量拟合训练数据。参与训练的特征的阈值f,该f取值3,如果词出现的次数小于f,则不参与训练。
例如,从上述文本中提取出实体之间的关系为:“装座板”设有“外壳框”。
本申请实施例中,获取已标注的第一语料集合,所述第一语料集合是按照第一预置规则对第一文本集合中的每篇文本进行实体语料标注得到的;然后对所述第一语料集合进行训练,得到实体提取模型,该实体提取模型用于提取文本中的实体;然后,将第二文本集合作为所述实体提取模型的输入,通过所述实体提取模型识别所述第二文本集合中的实体信息;获取已标注的第二语料集合;对所述第二语料信息集合进行训练,得到所述关系提取模型,该关系提取模型用于提取实体之间的关系,实体及实体之间的关系用于对本文进行结构化表示。
在上述实施例的基础上,本申请实施例中的实体提取模型包括至少两个实体提取子模型,所述至少两个实体提取子模型包括第一实体提取子模型和第二实体提取子模型,所述对所述第一语料集合进行训练,得到所述实体提取模型,还可以具体包括:
对所述第一语料集合进行训练,得到所述第一实体提取子模型;
将第三文本集合作为所述第一实体提取子模型的输入,通过所述第一实体提取子模型识别所述第三文本集合中的目标实体集合;
对所述目标实体集合进行训练,得到所述第二实体提取子模型。
本申请实施例中,不需要提前准备实体词典,开始只需标注一定量的语料(如第一语料集合)训练第一实体提取子模型,然后通过该第一实体提取子模型识别第三文本集合中的目标实体集合,该目标实体集合又可以作为新的标注语料,然后对该目标实体集合进行训练,得到第二实体提取子模型,该第二实体提取子模型又可以覆盖更多的实体,并由此生成实体词典,通过多个实体提取子模型的识别,该实体词典会包含越来越多的实体,例如,将所有专利中提取的实体词汇汇总在一起,组成实体词典,该实体词典可以包括2列,实体+频次。频次是包含此组件的专利数量。例如,安装底座,3;外壳框,4。本申请实施例中通过标注一定量的实体语料,通过不断的训练实体提取子模型,通过多个实体提取子模型覆盖更多的实体,对于识别文本中的实体准确度极大的提高。
同理,本申请实施例中的关系提取模型包括至少两个关系提取子模型,该至少两个实体提取子模型包括第一关系提取子模型和第二关系提取子模型,对所述第二语料信息集合进行训练,得到所述关系提取模型,还可以具体包括:
对所述第二语料集合进行训练,得到所述第一关系提取子模型;
将第四文本集合作为所述第一关系提取子模型的输入,通过该第一关系提取子模型识别所述第四文本集合中的目标关系集合;
对所述目标关系集合进行训练,得到所述第二实体提取子模型。
本申请实施例中,不需要提前准备实体关系词典,开始只需标注一定量的关系语料(如第二语料集合)训练第一关系提取子模型,然后通过该第一关系提取子模型识别第四文本集合中的目标关系集合,该目标关系集合又可以作为新的标注关系语料,然后对该目标关系集合进行训练,得到第二关系提取子模型,该第二关系提取子模型又可以覆盖更多的关系,并由此生成关系词典,通过多个关系提取子模型的识别,该关系词典会包含越来越多的关系,例如,将所有专利中提取的关系词汇汇总在一起,组成关系词典,该关系词典可以包括2列,关系+频次。频次是包含此关系的专利数量。例如,包含,10;设有,20。本申请实施例中通过标注一定量的关系语料,通过不断迭代训练关系提取子模型,通过多个关系提取子模型覆盖更多的关系,对于识别文本中的关系准确度极大的提高。
然后进行文本结构化表示;
执行上述示例中的步骤101-步骤105得到实体提取模型和关系提取模型,进一步可以通过该实体提取模型和该关系提取模型对目标文本进行结构化表示,请参阅图2所示,本申请实施例提供了一种文本结构化的方法,可以包括如下步骤:
步骤201、获取待结构化的目标文本。
获取待结构化的目标文本,例如,该目标文本可以为一篇专利。
步骤202、将所述目标文本输入到实体提取模型,通过所述实体提取模型识别所述目标文本中的目标实体集合。该实体提取模型为对所述第一语料集合进行训练得到的,该第一语料集合是对第一文本集合中的每篇文本进行实体语料标注得到的。
首先,将该目标文本输入到实体提取模型,通过所述实体提取模型识别所述目标文本中的目标实体集合。例如,该目标文本包括如下内容:“一种汽车高位制动灯,其特征在于:包括矩形的安装座板(1),所述安装座板(1)上设有与之相匹配的外壳框(2),所述外壳框(2)内设有多个隔板(3)”,该实体提取模型输出该目标文本中的目标实体集合为“安装座板、外壳框、隔板”。
步骤203、将已识别到所述目标实体集合的目标文本输入到关系提取模型,通过所述关系提取模型提取所述目标实体之间的关系。
将已识别到所述目标实体的目标文本输入到关系提取模型,关系提取模型输出各目标实体之间的关系,例如,该各实体之间的关系为:安装座板设有外壳框;外壳框设有隔板。
步骤204、根据所述实体及所述目标实体之间的关系,对所述目标文本进行结构化表示,生成目标结构。
请参阅图3进行理解,图3为目标结构的示意图。该生成目标结构包括节点和边,所述节点表示所述实体,该实体包括组件、属性或属性值;所述边表示实体之间的关系,所述实体之间的关系包括所述组件之间的关系,所述组件与所述属性之间的关系,或,所述属性与所述属性值的关系。
例如,从一篇专利中提取出的实体及其关系如下:
制动灯包含安装座板
制动灯包含光栅版
制动灯包含LED灯
安装座板设有外壳框
外壳框设有隔板
外壳框设有安装腔
把目标文本中的实体提取的结果与实体关系提取的结果融合,即可得到整篇目标文本的结构图(如图3所示的目标结构)。
本申请实施例中,通过已训练好的实体提取模型提取目标文本中的实体,再通过已训练好的关系提取模型提取所述实体之间的关系,根据实体及实体之间的关系自动的生成结构化的文本表示,无论是目标文本还是候选文本均由实体及实体之间的关系组成,提取了文本内容中的实体和实体之间的关系,利于对文本内容的理解,转换速度快,节省人工成本。
在一个应用场景中,用户找到一篇目标文本(如专利),专利篇幅很长,或者逻辑性比较强,用户通过主观理解该专利的内容需要花大量的时间,用户可以通过该电子设备(如手机)将该篇专利转换成结构图,手机接收该篇专利,将该篇专利输入到实体提取模型,通过所述实体提取模型识别专利中的目标实体集合;然后,将已识别到所述目标实体集合的专利输入到关系提取模型,通过所述关系提取模型提取所述目标实体之间的关系;根据目标实体及所述目标实体之间的关系,对所述目标文本进行结构化表示,生成目标结构,终端展示该目标结构。或者,用户也可以通过终端(如手机)将该篇专利向服务器发送,由服务器将该篇专利转换成目标结构,然后,该服务器将该目标结构发送至终端,该终端展示该目标结构。本申请实施例中将目标文本转换为目标结构,更利于用户理解目标文本中的内容,且极大的节省了人工成本。
在上述实施例的基础上,本申请还提供了另一个实施例中,通过关系提取模型对实体之间的关系进行提取有可能会出现这样的情况,即目标实体可能出现在两句话中,导致关系提取模型可能无法识别。例如,在一个示例中,待识别的文本为“电池组连接监测模块;还连接CPU处理器和显示器。”,通过上述关系提取模型可以识别出“电池组连接检测模块”,即电池组与检测模块之间的关系,由于CPU处理器和显示器在另外一个句子中,可能存在不能识别的情况。
针对上述情况,解决实体之间的关系存在于不同的句子中,关系提取模型可能存在不能识别的情况,本申请提供了另一个实施例:
所述目标文本包括第一实体,在步骤203之后,步骤204之前还可以包括如下步骤:
获取实体关系数据集,所述实体关系数据集是提取文本集合中的实体及实体之间的关系得到的;所述实体关系矩阵包括N个实体及所述N个实体之间的关系,所述N大于或者等于2;
在所述实体关系数据集中进行查询,得到与所述第一实体具有关系的M个第二实体,所述M小于或者等于N。
在所述目标文本中的预置范围内,查找所述第二实体;
若查找到所述M个第二实体中的至少一个目标第二实体,则建立所述第一实体与所述目标第二实体之间的关系。
具体的,首先,获取实体关系数据集,所述实体关系数据集是提取文本集合中的实体及实体之间的关系得到的;所述实体关系矩阵包括N个实体及所述N个实体之间的关系,所述N大于或者等于2。
其中,获取实体关系数据集的具体方法包括:
将所述文本集合输入到实体提取模型,通过所述实体提取模型识别所述文本集合中的实体信息;该文本集合可以理解为包括多篇文本的集合,例如,该文本集合为包十万篇专利的集合。需要说明的是,该文本集合中包括的文本的数量为举例说明,并非对本申请实施例的限制。
将已识别到所述实体信息的目标文本集合输入到关系提取模型,通过所述关系提取模型提取所述文本集合中每篇文本中实体与实体之间的关系。该实体关系数据集包括文本集合中每篇文本中实体与实体之间的关系。
该实体关系数据集如下矩阵A所示:
制动灯 底座 …… LED灯 …… 灯壳
制动灯 0 设有 0 0
底座 0 0 包含 连接
……
LED灯 0 0 连接
……
灯壳 0 连接 连接 0
然后,在所述实体关系数据集中进行查询,得到与所述第一实体具有关系的M个第二实体,所述M小于或者等于N。
例如,在目标文本中,该第一实体为“底座”,“底座”没有和其他组件产生关系,那么,很可能出现的一种情况是,“底座”和与其具有关系的组件在不同的语句中,那么就需要确定在所述实体关系数据集中哪些第一实体与哪些实体具有关系,则在目标文本中,该第一实体也可能与哪些实体具有关系。
例如,该第一实体为“底座”。在上述矩阵A查找与“底座”有关系的第二实体,具体方法可以为:
在矩阵A中定位到“底座”一行,取得与“底座”有关系的所有组件集合S_a,S_a包含的组件为:LED灯、灯壳。在矩阵A中定位到“底座”一列,取得与“底座”有关系的所有组件集合S_b,S_b包含的组件为:制动灯、灯壳。
集合S=S_a+S_b,集合S中包含(s_0,s_1,s_2…s_k…s_n);
在上述例子中,该集合S中包含(LED灯、灯壳、制动灯)。
进一步的,在所述目标文本中的预置范围内,查找所述第二实体;
该预置范围可以是由实体匹配窗口的大小确定的,根据所述实体匹配窗口的大小确定所述目标文本中的预置范围。该实体匹配窗口的大小可以预先设定。
从此组件出现的位置出发,在向前g个位置和向后g个位置之内的范围内查找目标第二实体。例如,该实体匹配窗口从“底座”的位置出发,向前10个字符,向后10个字符的范围内,查找第二实体。
最后,若查找到所述M个第二实体中的至少一个目标第二实体,则建立所述第一实体与所述目标第二实体之间的关系。
例如,若查找到3个第二实体,这3个第二实体为:制动灯、折叠件、LED灯,在这三个实体中,其中有两个实体与集合S中的“LED灯、制动灯”匹配,该“LED灯、制动灯”为目标第二实体,则建立“底座”与目标第二实体之间的关系,此关系的种类为“有关系”。
本实施例中,获取实体关系数据集,在该实体关系数据集中进行查询,得到与所述第一实体具有关系的M个第二实体,所述M小于或者等于N;然后在所述目标文本中的预置范围内,查找所述第二实体;若查找到所述M个第二实体中的至少一个目标第二实体,则建立所述第一实体与所述目标第二实体之间的关系,以解决与第一实体有关系的第二实体分别在不同的语句中,关系提取模型可能不能识别的情形。
可选的,本申请实施例中的目标结构可以为文本结构,也可以为图像结构,生成图像结构的具体方式包括:
首先,获取用于表示所述实体的目标图像信息;
具体的,可以从互联网数据(如各种相关论坛、专利数据库,论文数据库)和本地数据库中获取图像集合;
识别所述图像集合中每个图像中的文字;若所述目标实体与所述图像集合中的文字相匹配,则从所述图像集合中选择用于表示所述目标实体的图像信息。例如,识别图像集合中每个图像中的文字,若其中第一图像中的文字(如发动机)与第一目标实体的文字(如发动机)相匹配,其中第二图像中的文字(如连杆)与第二目标实体的文字(如连杆)相匹配,其中第三图像中的文字(如下压机构)与第二目标实体的文字(如下压机构)相匹配,则选择第一图像、第二图像和第三图像作为表示第一目标实体和第二目标实体的图像信息。
然后,根据所述目标实体及所述目标实体之间的关系,生成用图像信息表示的目标结构。
请参阅图4所示,图4为图像结构示意图。例如,“发动机”、“连杆”和“下压机构”之间的关系为:“发动机”连接“连杆”,“发动机”连接“下压机构”,根据“发动机”、“连杆”和“下压机构”及其之间的连接关系,生成如图4所示的图像结构。本示例中,获取用于表示目标实体的图像信息,根据目标实体及目标实体之间的关系生成图像结构,展示该图像结构,更生动更形象的体现文本中各实体及各实体之间的关系,更易于用户理解文本内容。
上面对于训练实体提取模型和关系提取模型的方法进行了详细说明,下面应用该实体提取模型和关系提取模型对文本进行结构化表示。
需要说明的是,执行上述步骤101-步骤105的执行主体和上述步骤201-步骤204的执行主体可以为同一个电子设备,也可以为不同的电子设备;步骤101-步骤105在步骤201之前,当实体提取模型和关系提取模型训练完成后,可以不执行步骤101-步骤105,而直接执行步骤201。
实施例2
请参阅图5所示,本申请实施例还提供了一种确定文本相似度的方法,本示例中的方法应用于电子设备,该电子设备可以为服务器,也可以为终端,该方法可以包括如下步骤:
步骤301、获取目标文本及候选数据集,所述候选数据集包括多个数组,所述多个数组中的每个数组表示一个实体的语义向量;所述实体被包含于候选文本中。
服务器可以接收终端发送的目标文本,例如,该目标文本可以为一篇专利。
服务器获取候选数据集的具体方法包括至少如下两种方式:
在第一种可能的实现方式中:
首先,获取文本集合,该文本集合包括n篇候选文本,所述n为大于或者等于2的整数,可以理解的是,该文本集合可以为专利库中一个技术领域的所有专利,或者,该文本集合也可以为专利库中一个技术领域的所有专利的一个子集,例如,该n可以为十万或百万。
然后,提取所述n篇候选文本中每篇候选文本中的实体,得到m个实体,需要说明的是,本步骤中,提取n篇候选文本中每篇候选文本中的实体的具体方法可以根据实施例1中所述的实体提取模型进行提取,将每篇候选文本输入到该实体提取模型,通过该实体提取模型输出每篇候选文本中的实体,得到m个实体,该m为大于或者等于2的整数,例如,该m可以为一千万、两千万等等。
根据所述n篇候选文本及每篇候选文本所包含的实体,确定目标矩阵,例如,该目标矩阵B如下所示:
实体1 …… 实体j …… 实体m
专利1 1 0 0
专利2 0 3 4
……
专利i 0 1 1
…… 0 0
专利n 6 1 1
在矩阵B中,包括n行和m列,所述n行中的每一行表示一篇候选文本,所述m列中的每一列表示一个实体。其中,B[i][j]=实体j在专利i中出现的次数。例如,实体j在专利2中出现的次数为3次,实体m在专利i中出现的次数为1次等。
最后,对上述目标矩阵B进行奇异值分解,得到候选数据集。
具体的,对目标矩阵B进行奇异值分解,如下:
B=UΣVT
得到矩阵U,为n行k列的矩阵,每一行表示一个文本(如专利)的向量。
矩阵∑,是矩阵B的特征值矩阵,k行k列,其中,k为指定数值,例如,k可以为300。
矩阵V,k行m列,其中,每一列表示一个实体的向量,在该示例中,该候选数据集为该矩阵V,该矩阵V也可以称为“候选矩阵”。
该矩阵V的示例如下:
实体1 …… 实体j …… 实体m
维度1 0.12 -0.1 0.2
维度2 -0.5 -0.3 0.07
……
维度i 0.01 0.6 0.02
…… -0.08 -0.3
维度k 0.34 0.1 -0.11
矩阵V中的每一列,用于表示一个组件的k维向量,其中每一个值V[i][j]代表实体j在第i个维度上的投影值。
需要说明的是,本示例中,该目标矩阵B和矩阵V只是为了方便说明,而进行的示例性的表示,并不造成对本申请的限定性说明。
在第二种可能的实现方式中:
可以通过训练好的Word2vec模型,得到该候选数据集,候选数据集包括多个实体的向量,该Word2vec模型是根据实体语料集合进行训练得到的,该实体语料集合可以是根据实施例1中步骤101中记载的方法得到的,或者,该实体语料集合也可以是通过实体提取模型对文本集合中的每一篇文本进行实体提取得到的,将实体语料集合中每一个词按顺序编号从1到W,W为大于1的整数。将该实体语料集合输入到Word2vec模型,当前词与预测词在一个句子中的最大距离可以设置l,例如,该l可以为5、10等,本示例中该l可以以5为例进行说明。请参阅图6进行理解,图6为Word2vec模型训练过程示意图。
Word2vec模型包括输入层、中间层和输出层。
输入层,共有d个节点,对应d个实体。
中间层,共有300个节点,每一个输入层节点都有边与300个节点全部相连。
输出层,共有d个节点,对应d个实体。
遍历对于实体语料集合中的每一个实体t,取得t的序号i,输入层[i]=1,其余输入层节点=0。
取得t的距离5之内的其他词,取得其他词的序号a1,a2,a3,a4,a5,写入输出层a1的位置=1,a2的位置=1,a3的位置=1,a4的位置=1,a5的位置=1,其余位置=0。
调用梯度下降算法计算各条边的权重。
模型训练完成之后,任一输入层节点i到中间层节点的300条边的权重列表,就是代表第i个实体的向量。i个实体的向量构成该候选数据集。
本示例中的候选数据集包括多个实体的向量。将每一篇候选文本中提取出的实体输入到该Word2vec模型,通过该Word2vec模型输出每个实体的向量,所有得到的实体的向量组成所述候选数据集。
步骤302、提取所述目标文本中的目标实体集合,所述候选数据集的多个数组所表示的实体集合包含所述目标实体集合。
本申请实施例中可以以第一种实现方式获取候选数据集为例进行说明。请参阅矩阵V的示例,在该矩阵V中,每一个列表示一个数组,每一个数据包括多个元素,每一个元素代表实体在维度上的投影值。
通过上述实施例1所记载的实体提取模型提取目标文本中的目标实体集合,该目标实体集合包含了该目标文本中所有的目标实体,例如,该目标文本中包括3个目标实体,该3个目标实体分别为实体1(如座板)和实体j(如LED灯)。候选数据集的多个数组所表示的实体集合包含所述目标实体集合,例如,在矩阵V中的向量所表示的实体集合(座板,…,LED灯,…,连接件)包含了目标文本中的实体1和实体j。需要说明的是,本示例中对于目标文本中所包含的实体及数量及候选数据集所包含的实体及数量均是为了方便说明而举的例子,并不造成对本申请的限定性说明。
步骤303、根据所述候选数据集确定所述目标实体集合中的每一个目标实体与每一篇所述候选文本中的每一个实体的向量的夹角值,得到实体相似度。
根据候选数据集中的实体向量,计算每一个目标实体与每一篇所述候选文本中的每一个实体的向量的夹角值。例如,目标文本中的目标实体为:实体1和实体j。一篇候选文本c中的实体为:实体2和实体x,针对该候选文本c,分别计算实体1与实体2的相似度,实体1与实体x的相似度,实体j与实体2的相似度,实体j与实体x的相似度。
以计算实体1和实体j的相似度为例进行说明:
在第一种可能的实现方式中:
实体相似度(Rela)为两个实体向量的夹角余弦值。
例如,Rela(实体1,实体2)=实体1向量(V1)与实体2向量(V2)的夹角余弦值。
在第二种可能的实现方式中:确定所述每一个目标实体的向量的终点与所述每一篇所述候选文本中的每一个实体的向量的终点之间的目标距离;
根据所述候选数据集确定所述目标实体集合中的每一个目标实体的语义向量与每一篇所述候选文本中的每一个实体的语义向量的夹角余弦值(用“Distance1”表示)和所述目标距离(用“Distance2”表示)得到所述实体相似度。
Distance1=V1与V2的夹角余弦值。
其中,Distance1为V1与V2的夹角余弦值。
实体1与实体2的相似度Rela(实体1,实体2)=Distance1*weight1+Distance2*weight2。
其中,Weight1代表Distance1的权重,weight2代表Distance2的权重。Weight1与Weight2默认值可以是0.5,也可以由用户根据实际使用场景指定,例如Weight1为0.6,weight2为0.4。
本示例中,该任两个实体之间的相似度根据两个向量的夹角余弦值及两个向量的终点的目标距离得到,既考虑到两个向量的夹角,又考虑到两个向量的终点位置,并且用户可以根据实际应用场景确定夹角余弦值和目标距离的权重,提高了计算实体之间的相似度的准确率。
步骤304、根据所述实体相似度,确定所述目标文本与每一篇候选文本的目标相似度。
在第一种实现方式中,针对每一篇候选文本,将所述目标文本中每一个目标实体的实体相似度进行累加,得到第一累加相似度;
根据所述第一累加相似度,确定所述目标文本与每一篇候选文本的目标相似度。
例如,在上述例子中,实体1和实体j,其中一篇候选文本c中的实体为:实体2和实体x,针对该候选文本c,分别计算实体1与实体2的相似度(记为“Re 1”),实体1与实体x的相似度(记为“Re 2”),实体j与实体2的相似度(记为“Re 3”),实体j与实体x的相似度(记为“Re 4”),然后,针对一个候选文本,将计算出来与每个实体的相似度(Re 1”、“Re 2”、“Re3”和“Re 4”)进行累加,得到第一累加相似度,在计算的过程中,可选的可以将相似程度小于50%(不含)的分值都为0。在一种实现方式中,该第一累加相似度可以作为目标文本与候选文本的相似度。
可选的,针对每一篇候选文本,计算目标文本中的每一个实体与候选文本的相似度sim1。
Sim1=第一累加相似度/(目标文本实体总数U候选文本实体总数),该sim1可以作为该目标文本与候选文本的目标相似度。
本实施例中,电子设备获取目标文本及候选数据集,候选数据集包括多个数组,该多个数组中的每个数组表示一个实体的语义向量;所述实体被包含于候选文本中;进一步的,提取所述目标文本中的目标实体集合,候选数据集的多个数组所表示的实体集合包含所述目标实体集合;根据所述候选数据集确定所述目标实体集合中的每一个目标实体的语义向量与每一篇所述候选文本中的每一个候选实体的语义向量的夹角余弦值,得到实体相似度;本实施例中,可以计算每一个目标实体与候选文本中每一个候选实体的相似度,根据所述实体相似度,确定所述目标文本与每一篇候选文本的目标相似度。本实施例中,确定目标文本与候选文本的相似度考虑到目标文本与候选文本中的每一个实体的相似度,相似度的确定更能真实表现出目标文本的内容与候选文本内容的相似度,相对于现有技术,仅通过用户主观确定的关键词,通过关键词匹配确定目标文本与候选文本的相似度的确定方法,需要受到用户主观理解的影响,本申请实施例提供的方法更客观,是目标文本与候选文本真实内容的表达,因此,相似度计算更准确。
在上述示例的基础上,在步骤304之前,所述方法还包括以下步骤:
提取所述目标文本中目标实体之间的关系;
获取每篇候选文本中的候选关系集合;根据所述实体相似度确定所述目标关系集合中的每个关系与所述候选关系集合中的每个候选关系的关系相似度;
在步骤304中,根据所述实体相似度和关系相似度,确定所述目标文本与每一篇候选文本的目标相似度。
本申请实施例中的所述关系包括二元关系,或者二元关系至X元关系,其中,X为大于或者等于3的整数,所述二元关系包括两个实体及两个实体之间的关系。所述X元关系包括X个实体,及至少(X-1)个二元关系,该且该(X-1)个二元关系中每个二元关系包含一个关联实体,该至少(X-1)个二元关系通过关联实体将(X-1)个二元关系连接。
例如,当X等于3时,则该关系包括二元关系和三元关系;当X等于4时,则该关系包括二元关系、三元关系和四元关系,本申请实施例中,为了方便说明,该关系可以以二元关系和三元关系为例进行说明。
下面对二元关系和三元关系进行举例说明:
二元关系:包括两个实体及其之间的关系,即实体1+实体2+实体1与实体2的关系,例如:制动灯(实体1)包含(关系)底座(实体2)。
三元关系:包括两个二元关系,例如包括二元关系1和二元关系2,且两个二元关系有中具有相同的实体,该相同的实体为关联实体,用于连接两个二元关系。该三元关系如(制动灯-安装座板,安装座板-外壳框)。其中安装座板为关联实体。
下面对确定二元关系的相似度和三元关系的相似度的方法进一步说明:
可选的,提取所述目标文本中的每两个目标实体之间的二元关系,得到目标文本的目标二元关系集合。例如,目标二元关系集合为:(制动灯-安装座板,安装座板-外壳框,外壳框-隔板,外壳框-安装腔,制动灯-光栅版,制动灯-LED灯)。
获取每篇候选文本中的候选二元关系集合。例如,候选二元关系集合为:(制动灯-底座,底座-外壳框,外壳框-防尘镀膜,制动灯-光栅版,制动灯-LED灯,LED灯-灯壳)。
根据所述实体相似度确定所述目标二元关系集合中的每个二元关系与所述候选二元关系集合中的每个候选二元关系的二元关系相似度。二元关系相似度为:目标二元关系中的第一目标实体与候选二元关系的第一候选实体的相似度,目标二元关系中的第二目标实体与候选二元关系的第二候选实体的相似度,目标二元关系中的关系与候选二元关系中的关系的相似度之和。公式表示即为:二元关系相似度Rela2(目标二元关系,候选二元关系)=Rela1(目标实体1,候选实体1)+Rela1(目标实体2,候选实体2)+R(目标关系,候选关系);如果关系1等于关系2,则R(关系1,关系2)=1;如果关系1不等于关系2,R(关系1,关系2)=0。下面举例说明,如,目标二元关系为:制动灯-安装座板,候选二元关系为:制动灯-底座二元关系相似度Rela2(制动灯-安装座板,制动灯-底座)=Rela1(制动灯,制动灯)+Rela1(安装座板,底座)+R(连接,连接)。
进一步的,将所述目标文本中每一个二元关系的二元关系相似度进行累加,得到第二累加相似度;该第二累加相似度为:把目标文本中的每个二元关系在候选文本中遍历一遍,计算出与每个二元关系的相似度Rela2,实体相似程度小于50%(不含)的分值可以记为0,并把所有相似度相加。
进一步的,针对每一篇候选文本,计算目标文本中的每一个二元关系与候选结构的相似度Sim2。具体的,计算目标文本中二元关系总数与候选文本中二元关系总数的并集,例如,目标文本中二元关系总数为12,候选文本中二元关系总数为14,则并集为14,Sim3为第二累加相似度与该并集的比值,即如下所示:
Sim2=第二累加相似度/(目标文本中二元关系总数U候选文本中二元关系总数)。
进一步的,在上述实施例的基础上,还可以包括如下步骤:
根据所述目标二元关系集合,确定目标三元关系集合,所述目标三元关系集合中包含多个三元关系,所述三元关系包括两个二元关系,且所述两个二元关系中有相同的实体。例如,目标三元关系集合为:(制动灯-安装座板,安装座板-外壳框),(安装座板-外壳框,外壳框-隔板),(安装座板-外壳框,外壳框-安装腔)。
获取每篇候选文本中的候选三元关系集合。例如,候选三元关系集合为:(制动灯-底座,底座-外壳框),(底座-外壳框,外壳框-防尘镀膜)。
根据所述二元关系相似度确定所述目标三元关系集合中的每个三元关系与所述候选三元关系集合中的每个候选三元关系的三元关系相似度。三元关系相似度为:目标三元关系中的第一目标二元关系与候选三元关系中的第一候选二元关系的二元关系相似度,与,目标三元关系中的第二目标二元关系与候选三元关系中的第二候选二元关系的二元关系相似度之和,即可以用如下方式进行表示:
Rela3(目标三元关系,候选三元关系)=Rela2(第一目标二元关系,第一候选二元关系)+Rela2(第二目标二元关系,第二候选二元关系)。
例如,目标三元关系为:(制动灯-安装座板,安装座板-外壳框);
候选三元关系为:(制动灯-底座,底座-外壳框);
Rela3[(制动灯-安装座板,安装座板-外壳框),(制动灯-底座,底座-外壳框)]
=Rela2(制动灯-安装座板,制动灯-底座)+Rela2(安装座板-外壳框,底座-外壳框)
=Rela1(制动灯,制动灯)+Rela1(安装座板,底座)+R(连接,连接)+Rela1(安装座板,底座)+Rela1(外壳框,外壳框)+R(连接,连接)。
将所述目标文本中每一个三元关系的三元关系相似度进行累加,得到第三累加相似度;第三累加相似度为目标文本的每个三元关系在候选文本中遍历一遍,计算出与每个候选三元关系的相似度Rela3,实体相似程度小于50%(不含)的分值都为0,并把所有相似度相加。
计算目标文本中的每一个三元关系与候选文本的相似度Sim3。具体的,计算目标文本中三元关系总数与候选文本中三元关系总数的并集,例如,目标文本中三元关系总数为10,候选文本中三元关系总数为8,则并集为10,Sim3为第三累加相似度与该并集的比值,即如下所示:
Sim3=第三累加相似度/(目标文本中三元关系总数U候选文本中三元关系总数)。
进一步的,所述目标实体包括特定实体,所述方法还包括:
确定所述特定实体的实体相似度;该特定实体可以为用户指定的实体,特定实体的数量并不限定。例如,该特定实体为“制动灯”,或者该特定实体可以为“制动灯”和“安装座板”,该特定实体可以为在实际技术方案中比较重要的实体,本示例中,该特定实体可以以“制动灯”为例进行说明。例如候选文本中包括的候选实体为“制动灯”、“底座”和“灯壳”,针对该候选文本,特定实体的实体相似度包括:“制动灯”与“制动灯”的相似度(记做“R11”),“制动灯”与“底座”的相似度(记做“R12”),“制动灯”与“灯壳”的相似度(记做“R13”)。
针对每一篇候选文本,将所述特定实体的所述实体相似度进行累加,得到第四累加相似度;该第四累加相似度为:R11+R12+R13。
在上述步骤304中,根据上述第一累加相似度、第二累加相似度、第三累加相似度和第四累加相似度及其对应的权重计算目标文本与候选文本的相似度SIM。
公式1:SIM=sim1*weight1+sim2*weight2+sim3*weight3+sim4*weight4,其中,weight1是实体相似度的权重,weight2是二元关系相似度的权重,weight3是三元关系相似度的权重,weight4是特定实体相似度的权重。
上述weight1、weight2、weight3和weight4可以根据具体的应用的场景进行设置,例如,用户认为特定实体的相似度和二元关系的相似度更为重要,则可以将weight2和weight4设置为较高数值,例如weight4为0.4,weight2为0.3,weight1为0.2,weight3为0.1。通常情况下,weight1、weight2、weight3和weight4可以设置为0.25。
通过公式1可知,在第一种可能的实现方式中,可以根据第一累加相似度和第二累加相似度,确定目标文本与候选文本的相似度,即weight3为0,weight4为0的情况。
在第二种可能的实现方式中,可以根据第一累加相似度和第三累加相似度,确定目标文本与候选文本的相似度,即weight2为0,weight4为0的情况。
在第三种可能的实现方式中,可以根据第一累加相似度和第四累加相似度,确定目标文本与候选文本的相似度,即weight2为0,weight3为0的情况。
在第四种可能的实现方式中,可以根据第一累加相似度、第二累加相似度和第三累加相似度,确定目标文本与候选文本的相似度,即weight4为0的情况。
在第五种可能的实现方式中,可以根据第一累加相似度、第二累加相似度和第四累加相似度,确定目标文本与候选文本的相似度,即weight3为0的情况。
进一步的,本申请实施例中,可以根据SIM的大小对目标文本与候选文本集合中每篇候选文本的相似度进行排序,按照相似度从大到小的顺序进行排序或者从小到大的顺序进行排序,按照相似度的顺序显示预置数量的候选文本,例如,按照该顺序显示3篇候选文本。
本实施例中,通过计算目标文本中的每一个目标实体与候选文本中的候选实体的相似度、目标文本中的目标实体之间的关系与候选文本中候选实体之间的关系确定目标文本与候选文本的相似度,即考虑到实体的相似度,又考虑到关系的相似度,实体及其实体之间的关系更能体现文本中内容的实际表达。进一步的,该关系可以包含二元关系至N元关系,例如,该关系可以包含二元关系和三元关系,二元关系包括两个实体及两个实体之间的关系,三元关系包含两个二元关系,且两个二元关系可以通过关联实体进行连接。本申请实施例中,三元关系涉及三个实体及其之间的关系,因此,计算目标二元关系与候选二元关系的相似度,及目标三元关系与候选关系的相似度更能体现文本中内容的实际表达。进一步的,还可以确定特定目标实体的相似度,可以根据用户具体的应用场景来确定目标文本与候选文本的相似度,增强了用户实际需求度。
可选的,根据所述目标相似度确定所述目标文本与每一篇候选文本的新颖度,所述新颖度与所述目标相似度反相关。目标文本与候选文本的相似度越高,则该目标文本相对于该候选文本的新颖性越低。例如,目标相似度为70%,则新颖度可以为:1-70%=30%,或者,新颖度可以为1-k*70%,其中,k为纠正系数,本实施例中,具体的确定新颖性的方法并不限定,新颖度与所述目标相似度反相关。
可选的,在上述实施例的基础上,在本实施例中的目标文本可以为目标结构,候选文本可以为候选结构,即通过实施例1中的记载的方法,通过实体提取模型和关系提取模型将目标文本转换为目标结构,通过实体提取模型和关系提取模型候选文本转换为候选结构。
具体的,所述目标文本为结构化的文本,在步骤201中,所述获取目标文本的步骤,还可以包括以下步骤:获取目标文本;
将所述目标文本输入到实体提取模型,通过所述实体提取模型识别所述目标文本中的实体;
将已识别到所述实体的目标文本输入到关系提取模型,通过所述关系提取模型提取所述实体之间的关系;
根据所述实体及所述实体之间的关系,对所述目标文本进行结构化表示,生成结构化的文本。
可选的,在上述步骤202中,所述提取所述目标文本中的目标实体集合,可以具体包括如下步骤:
将所述目标文本作为实体提取模型的输入,通过所述实体提取模型提取所述目标文本中的目标实体集合,所述实体提取模型是对所述第一语料集合进行训练得到的,所述第一语料集合是对第一文本集合中的每篇文本进行实体语料标注得到的。
可选的,所述提取所述目标文本中的每两个实体之间的二元关系的步骤,还可以具体包括如下步骤:
将已识别到所述目标实体集合的目标文本输入到关系提取模型,通过所述关系提取模型提取所述目标实体之间的关系;所述关系提取模型是对所述第二语料信息集合进行训练的,所述第二语料集合是对所述第二文本集合的每篇文本进行关系语料标注及实体标注得到的。
实施例3
请参阅图7所示,本申请实施例还提供了一种确定文本新颖度的方法,该方法应用于一种电子设备,该电子设备可以为服务器,也可以为终端本实施例中,该电子设备可以以终端为例进行说明,该方法具体包括如下步骤:
步骤401、确定目标文本。
例如,该目标文本可以为一篇专利,一篇论文,本实施例中,该目标文本以专利为例进行说明。
步骤402、提取所述目标文本中的多个目标实体,得到目标实体集合。
本示例中,通过实施例1中的实体提取模型提取所述目标文本中的多个目标实体,具体的,将所述目标文本输入到实体提取模型,通过所述实体提取模型识别所述目标文本中的多个目标实体,该多个目标实体组成该目标实体集合。
步骤403、获取候选文本集合中的每篇候选文本的候选实体集合。
该候选文本集合包括可以为专利集合,该候选文本集合包括多篇候选文本(如专利),服务器从专利数据库获取到该候选文本集合,预先离线提取该候选文本集合中的每篇候选文本的候选实体,得到候选实体集合。或者,该服务器也可以在线提取候选文本集合中的每篇候选文本的候选实体,得到该候选实体集合,具体的,可以通过实施例1所记载的实体提取模型提取候选文本集合中的每篇候选文本的候选实体,得到该候选实体集合。
步骤404、确定所述目标实体集合与所述候选实体集合的第一实体交集,所述第一实体交集为所述目标实体集合和所述候选实体集合中相匹配的实体。
例如,该目标实体集合为(制动灯、底座、灯壳),候选实体集合(制动灯、安装座板、外壳框)。该第一实体交集为(制动灯)。
步骤405、根据所述第一实体交集与所述目标实体集合的差异参数确定所述目标文本与所述候选文本的新颖度。
所述根据所述第一实体集合与所述目标实体集合的差异参数确定第一实体新颖度。即:
第一实体新颖度=[目标实体集合-交集(目标实体集合,候选实体集合)]/目标实体集合=1-第一实体交集/目标实体集合。
本实施例中,第一实体交集与目标实体集合的差异参数为第一实体交集与目标实体集合的比值,或者,该第一实体交集与目标实体集合的差异参数也可以为第一实体交集与目标实体集合的差异参数为第一实体交集与目标实体集合的比值再乘以一个系数,该差异参数还有其他的变形,此处不赘述。
本实施例中,首先确定需要待确定新颖度的目标文本,该目标文本可以为一篇专利;进一步的提取所述目标文本中的多个目标实体,得到目标实体集合;获取候选文本集合中的每篇候选文本的候选实体集合;遍历每一篇候选文本,确定所述目标实体集合与每一篇候选文本的候选实体集合的第一实体交集,第一实体交集为所述目标实体集合和所述候选实体集合中相匹配的实体;最后,根据所述第一实体交集与所述目标实体集合的差异参数确定所述目标文本与所述候选文本的新颖度。本实施例中,考虑到目标文本中所有的目标实体,及每篇候选文本中所有的候选实体,根据第一实体交集与所述目标实体集合的差异参数确定所述目标文本与所述候选文本的新颖度,相对于现有技术,仅通过用户主观确定的关键词,通过关键词匹配确定新颖度,新颖度的确定方法需要受到用户主观理解的影响,本申请实施例提供的方法更客观,是目标文本与候选文本真实内容的表达,因此,新颖度计算更准确。
可选的,在上述实施例的基础上,本申请实施例在步骤405之前还可以包括如下步骤:
提取所述目标文本中的多个二元关系,得到目标二元关系集合,二元关系包括两个实体及其之间的关系;
获取所述候选文本中包括多个二元关系的候选二元关系集合;
确定所述目标二元关系集合与所述候选二元关系集合的第一二元关系交集,所述第一二元关系交集包括所述目标二元关系集合和所述候选二元关系集合中相匹配的二元关系;
然后,在步骤405中,根据所述第一实体集合与所述目标实体集合的差异参数确定所述目标文本与所述候选文本的新颖度可以具体包括:
根据所述第一实体集合与所述目标实体集合的差异参数确定第一实体新颖度;即:第一实体新颖度(R1_1)=[目标实体集合-交集(目标实体集合,候选实体集合)]/目标实体集合=1-第一实体交集/目标实体集合。根据所述第一二元关系交集与所述目标二元关系集合的差异参数确定第一二元关系新颖度;
R2_1=[目标二元关系集合-交集(目标二元关系集合,候选二元关系集合]/目标二元关系集合=1-第一二元关系交集/目标二元关系集合。
该第一二元关系交集与所述目标二元关系集合的差异参数可以为第一二元关系交集与所述目标二元关系集合的比值,或者,也可以为该比值乘以一个系数等其他变形,具体的并不限定。
可选的,在另一种可以实现的方式中,根据所述第一实体新颖度和第一二元关系新颖度及其各自的权重可以确定所述目标文本与所述候选文本的新颖度。在该种实现方式中,进一步的计算了目标文本中目标二元关系与候选文本中的候选二元关系的新颖度,在确定目标文本与候选文本的新颖度时,既考虑到实体之间的新颖度,又进一步结合二元关系之间的新颖度,提高了新颖度的准确率。
在上述实施例的基础上,还可以包括如下步骤:
提取所述目标文本中的目标三元关系集合,所述目标三元关系集合包括多个三元关系,所述三元关系包括两个二元关系,所述两个二元关系中具有相同的实体;
获取所述候选文本中包括多个三元关系的候选三元关系集合;
确定所述目标三元关系集合与所述候选三元关系集合的第一三元关系交集,所述第一三元关系交集包括所述目标三元关系集合和所述候选三元关系集合中相匹配的三元关系;
其中,所述根据所述第一实体新颖度和所述第一二元关系新颖度确定所述目标文本与所述候选文本的新颖度,还可以具体包括:
根据所述第一三元关系交集与所述目标三元关系集合的差异参数确定第一三元关系新颖度。即,R3_1=[目标三元关系集合-交集(目标三元关系集合,候选三元关系集合]/目标二元关系集合=1-第一三元关系交集/目标三元关系集合。该第一三元关系交集与所述目标二元关系集合的差异参数可以为第一三元关系交集与所述目标三元关系集合的比值,或者,该比值乘以一个系数等其他变形,具体的并不限定。
根据所述第一实体新颖度、所述第一二元关系新颖度及所述第一三元关系新颖度及其各自对应的权重确定所述目标文本与所述候选文本的新颖度。
该新颖度=R1_1*weight1+R2_1*weight2+R3_1*weight3,其中,在本示例中,该weight1是第一实体新颖度的权重;weight2是第一二元关系新颖度的权重;weight3是第一三元关系的权重。在该种实现方式中,进一步的计算了目标文本中目标三元关系与候选文本中的候选三元关系的新颖度,在确定目标文本与候选文本的新颖度时,既考虑到实体之间的新颖度,又进一步结合二元关系之间的新颖度,及三元关系之间的新颖度,提高了新颖度的准确率。
需要说明的是,本申请实施例中,该关系还可以包括4元关系、5元关系等等,本实施例中,仅以二元关系和三元关系作为示例进行说明,并不造成对本申请的限定性说明。
可选的,本实施例中,该目标文本为结构化文本,即为目标结构,该候选文本集合中每篇候选文本为结构化的候选结构。本示例中,可以根据候选结构得到候选图谱,可以理解的是,候选图谱可以包括至少一篇候选结构,当候选图谱包括一篇候选结构时,该候选图谱与候选结构相同。当候选图谱包括大于或者等于2篇候选结构时,请结合图8进行理解,图8为候选图谱的结构示意图,确定候选图谱的方法还可以包括如下步骤:
确定所述第一候选结构和所述第二候选结构的关联实体;如,第一候选结构包括的实体:底座、灯壳和灯罩。实体之间的关系包括:底座-灯罩底座-灯壳。该第二候选结构包括的实体:灯壳、灯芯和电门。实体之间的关系包括:灯壳-灯芯灯壳-电门。则该第一候选结构和所述第二候选结构的关联实体为“灯壳”。
通过所述关联实体将所述第一候选结构和所述第二候选结构进行关联,得到所述候选图谱。请结合图8进行理解,通过该关联实体将所述第一候选结构和所述第二候选结构进行关联。
在上述实施例的基础上,可选的,本实施例中,当目标文本和候选文本均为结构化文本时,可以通过计算目标结构和候选图谱的新颖度,本申请实施例中,该候选图谱中所包含的候选结构的数量并不限定,例如,该候选图谱中可以包括3篇候选结构,4篇候选结构,或候选实体集合中所有的候选结构都可以,各篇候选结构均有关联实体,可以通过关联实体将各篇候选结构进行连接即可,在实际应用中,该候选图谱中所包含的候选结构的数量并不限定,本实施例中,为了方便说明,该候选图谱中所包含的候选文本的数量可以以2篇为例进行说明。该实施例中的方法还可以包括如下步骤:
提取候选图谱的候选实体集合;在候选图谱中,每一个节点表示一个实体,每一个边表示关系的集合。该关系还是以二元关系和三元关系为例,二元关系集合为候选图谱中所有相邻的两个节点的关系集合。三元关系集合为候选图谱中所有相邻的三个节点的关系集合。
确定所述目标实体集合与所述候选图谱的候选实体集合的第二实体交集,本步骤可以结合本实施例中步骤404进行理解;
根据所述第二实体交集与所述目标实体集合的差异参数确定第二实体新颖度;即:第二实体新颖度R1_2=(目标实体集合-交集[目标实体集合,候选实体集合)]/目标实体集合=1-第二实体交集/目标实体集合。本步骤可以结合本实施例中步骤405进行理解。
可选的,该方法还可以包括如下步骤:
提取所述目标结构中的多个二元关系,得到目标二元关系集合;例如,该目标二元关系集合中包含的一个目标二元关系为“灯壳-灯芯”。
将所述目标二元关系集合中的每个目标二元关系所包含的两个目标实体定位到所述候选图谱中的对应的两个实体位置;将该目标二元关系“灯壳-灯芯”定位到候选图谱中,在候选图谱中找到“灯壳”和“灯芯”这两个节点。
计算每个目标二元关系对应的所述两个实体位置之间的距离;计算在候选图谱中“灯壳”到“灯芯”的距离,需要说明的是,在候选图谱中相邻两个节点之间的间隔相等(如记为a),计算两个节点之间的距离,可以理解为从第一实体位置(如“灯壳”)到第二实体位置(如“灯芯”)路径的距离,以图8为例,从“灯壳”到“灯芯”的距离为a,而从“底座”到“灯芯”的路径为:从“底座”到“灯壳”,从“灯壳”再到“灯芯”,从“底座”到“灯壳”的距离为a,从“灯壳”再到“灯芯”也为a,即从从“底座”到“灯芯”的距离L为2a。
根据所述距离确定每个所述目标二元关系相对于所述候选图谱的第二二元关系新颖度;一个第二二元关系的新颖性得分R2_2与L成正比,L越短则新颖度越低,L越长则新颖度越高。
在第一种可以实现的方式中,可以根据第二实体新颖度R1_2和第二二元关系新颖度R2_2及其各自对应的权重确定所述目标结构与所述候选图谱的新颖度。本种实现方式中,确定第二实体新颖度,进一步的计算了目标文本中目标二元关系与候选图谱中的第二二元关系的新颖度,在确定目标结构与候选结构的新颖度时,既考虑到实体之间的新颖度,又进一步结合二元关系之间的新颖度,提高了新颖度的准确率。
在第二种可以实现的方式中,首先,获取所述候选图谱中包括多个二元关系的候选二元关系集合;确定所述目标二元关系集合与所述候选二元关系集合的第二二元关系交集;根据所述第二二元关系交集与所述目标二元关系集合的差异参数确定第一二元关系新颖度;
然后,可以根据上述第一二元关系新颖度和第二二元关系新颖度及其各自对应的权重计算二元关系的新颖度。即:二元关系新颖度R2=第一二元关系新颖度R2_1*weight1+R2_2*weight2,其中,本示例中,weight1是R2_1的权重;weight2是R2_2的权重;该权重可以根据不同的应用场景进行不同的设置。
然后,根据第二实体新颖度R2_1和该二元关系新颖度R2_2及其各自对应的权重确定目标结构与所述候选图谱的新颖度。在该种实现方式中,该二元关系新颖度由第一二元关系新颖度和第二二元关系新颖度及其对应权重共同确定,增加了确定二元关系新颖度的适用场景。
在上述实施例的基础上,可选的,该方法还可以包括如下步骤:
提取所述目标图谱中的多个三元关系,得到目标三元关系集合;如,该目标三元关系集合包括的一个目标三元关系为“灯壳-灯芯-电门”。
将所述目标三元集合中的每个目标三元关系所包含的三个目标实体定位到所述候选图谱中的对应三个实体位置;将该“灯壳-灯芯-电门”分别定位到候选图谱中对应的“灯壳”,“灯芯”和“电门”的位置。
计算在三个实体位置中任意两个位置的最短距离;计算任意相邻的两个节点,“灯壳”与“灯芯”在候选图谱中的最短距离L1,“灯芯”与“电门”在候选图谱中的最短距离L2。计算两个最短距离之和,一个第二三元关系的新颖度得分R3_2与L1+L2成正比,L1+L2越短则新颖度越低,L1+L2越长则新颖度越高。
在第三种可能的实现方式中,可以根据所述第二实体新颖度R1_2、第二二元关系新颖度R2_2和第二三元关系新颖度R3_2及其各自对应的权重确定所述目标结构与所述候选图谱的新颖度。
例如,该新颖度=R1_2*weight1+R2_2*weight2+R3_2*weight3,该种实现方式中,weight1为第二实体新颖度的权重,weight2为第二二元新颖度的权重,weight3为第二三元关系新颖度的权重。
进一步的,本申请实施例中,可以根据新颖度的大小对目标文本与候选文本集合中每篇候选文本的新颖度进行排序,按照新颖度从大到小的顺序进行排序或者从小到大的顺序进行排序,按照新颖度的顺序显示预置数量的候选文本,例如,按照该顺序显示3篇候选文本。
在该种实现方式中,进一步的计算了目标结构中目标三元关系与候选图谱中的第二三元关系的新颖度,在确定目标结构与候选结构的新颖度时,既考虑到实体之间的新颖度,又进一步结合二元关系之间的新颖度,及三元关系之间的新颖度,提高了新颖度的准确率。
进一步的,在上述第三种实现方式的基础上,还提供了第四种可能的实现方式,该方法还可以包括如下步骤:
确定所述目标结构的目标三元关系集合与候选图谱的所述候选三元关系集合的第二三元关系交集;
[根据所述第二三元关系交集与所述目标三元关系集合的差异参数确定第一三元关系新颖度;即:R3_1=[目标三元关系集合-交集(目标三元关系集合,候选三元关系集合)]/目标三元关系集合。
在第四种可能的实现方式中,首先,根据所述第一三元关系新颖度和所述第二三元关系新颖度及各自对应的权重确定三元关系新颖度;即:三元关系新颖度R3=R3_1*weight1+R3_2*weight2,该种实现方式中,weight1是R3_1的权重;weight2是R3_2的权重。
然后,根据所述第二实体新颖度R1_2、二元关系新颖度R2和所述三元关系新颖度R3及其各自对应的权重确定所述目标结构与所述候选图谱的新颖度。在该种实现方式中,该三元关系新颖度由第一三元关系新颖度和第二三元关系新颖度及其对应权重共同确定,增加了确定三元关系新颖度的适用场景。
需要说明的是,在本申请实施例中,实施例1、实施例2和实施例3中相互关联的内容可以相互引用。如,在所述提取所述目标文本中的多个二元关系的步骤中,还可以包括如下步骤:
获取实体关系数据集,所述实体关系数据集是根据文本集合中的实体及实体之间的关系得到的;所述实体关系矩阵包括N个实体及所述N个实体之间的关系,所述N大于或者等于2;
在所述实体关系数据集中进行查询,得到与所述第一实体具有关系的M个第二实体,所述M小于或者等于N;
在所述目标文本中的预置范围内,查找所述第二实体;
若查找到所述M个第二实体中的至少一个目标第二实体,则建立所述第一实体与所述目标第二实体之间的关系。
在所述目标文本中的预置范围内,查找所述第二实体之前的步骤中,所述方法还可以包括如下步骤:
创建实体匹配窗口;
根据所述实体匹配窗口的大小确定所述目标文本中的预置范围。
在所述提取所述目标文本中的多个目标实体的步骤中,还可以具体包括如下步骤:
将所述目标文本输入到实体提取模型,通过所述实体提取模型识别所述目标文本中的多个目标实体。
在所述提取所述目标文本中的多个二元关系的步骤中,还可以具体包括如下步骤:
将已识别到所述目标实体的目标文本输入到关系提取模型,通过所述关系提取模型提取所述目标实体之间的二元关系。
根据所述目标实体之间的关系,对所述目标文本进行结构化表示,生成目标结构。所述目标结构包括节点和边,所述节点用于表示所述目标实体,所述边用于表示目标实体之间的关系。
实施例4
请参阅图9,本申请实施例提供了一种获取图像信息的方法,该方法应用于一种电子设备,该电子设备可以为服务器,也可以为终端,本申请实施例中的执行主体具体的并不限定,该方法可以包括如下步骤:
步骤501、接收待匹配的目标文本信息;其中,目标文本信息包括目标实体。
若执行主体为终端,终端接收用户输入的待匹配的目标文本信息。若该执行主体为服务器,则服务器接收终端发送的待匹配的目标文本信息,例如,该目标文本信息为“发动机”。在一个应用场景中,该执行主体可以以服务器为例进行说明,如,用户想要搜索“发动机”对应的图像信息,终端接收用户输入的“发动机”,终端将该目标实体向服务器发送,该服务器接收该目标文本信息。需要说明的是,本申请实施例中的目标实体的数量并不限定,本示例中该目标实体为“发动机”只为示例性说明,并不造成对本申请的限定性说明。
步骤502、将目标实体与图像数据集中各候选图像所关联的候选实体进行匹配。
服务器将目标实体与图像数据集中各候选图像所关联的候选实体进行匹配,其中,该图像数据集可以是该服务器内部存储的,也可以是从另一台设备获取的,具体的并不限定。该图像数据集中包含大量的候选图像,且每个候选图像具有关联的候选实体。例如,候选图像1关联“连杆”,候选图像2关联“引擎”等等。
步骤503、若目标实体与图像数据集中的第一候选图像所关联的候选实体相匹配,则确定第一候选图像为与目标实体相匹配的候选图像。
例如,若目标实体(如“发动机”)与图像数据集中的第一候选图像所关联的候选实体(如“引擎”)相匹配,则确定该第一候选图像为与目标实体相匹配的候选图像。
具体的,将目标实体与图像数据集中的第一候选图像所关联的候选实体相匹配的具体方式可以为:
首先,获取目标实体的语义向量及各候选图像所关联的候选实体的语义向量;在一种可能的实现方式中,可以通过实施例2中步骤301中的“候选矩阵”来获取目标实体的语义向量和候选实体的语义向量,具体的实现方式,请结合通过实施例2中步骤301进行理解,此处不赘述。第二种可能的实现方式中,可以根据实施例2中步骤301中,通过训练好的Word2vec模型得到目标实体的语音向量和候选实体的语义向量,具体的实现方式,请结合通过实施例2中步骤301进行理解,此处不赘述。
然后,计算目标实体的语义向量与候选实体的语义向量的夹角余弦值。
根据目标实体的语义向量与候选实体的语义向量的夹角余弦值,得到该目标实体与候选实体的相似度,该相似度越高,表明该目标实体与候选实体的匹配度越高。
按照匹配度由高到底的顺序,确定与该目标实体相关联的U个候选实体,该U为大于或者等于1的整数,确定该U个候选实体所关联的候选图像为第一候选图像,该第一候选图像的数量并不限定。
步骤504、输出第一候选图像。
若执行主体为终端,则终端展示该第一候选图像。若该执行主体为服务器,则该服务器将该第一候选图像向终端发送,以使得该终端展示该第一候选图像。
在一个应用场景中,用户输入“发动机”,终端接收到“发动机”,然后将该“发动机”向服务器发送,服务器将“发动机”与图像数据集中的每个候选实体进行匹配,最后服务器匹配到目标实体“发动机”与候选实体“发动机”的相似度高于阈值,目标实体“发动机”与候选实体“引擎”的相似度也高于阈值,则确定该候选实体“发动机”所关联的候选图像Aa和候选实体“引擎”所关联的候选图像Ab为第一候选图像。服务器将候选图像Aa和候选图像Ab向终端发送,该终端展示该候选图像Aa和候选图像Ab。
本申请实施例中,首先接收待匹配的目标文本信息;其中,目标文本信息包括目标实体;然后将目标实体与图像数据集中各候选图像所关联的候选实体进行匹配;若目标实体与图像数据集中的第一候选图像所关联的候选实体相匹配,则确定第一候选图像为与目标实体相匹配的候选图像;输出第一候选图像。本申请实施例中,输出的第一候选图像为与目标文本信息中的目标实体相匹配的候选图像,该候选图像可以更生动的表示目标实体,本申请实施例中获取图像信息的方法不需要像现有技术中需要人工的逐篇查阅文本中的附图,选择与目标实体相匹配的图像,极大的节省了人工成本。
在上述实施例的基础上,可以预先建立该图像数据集,下面对如何建立该图像数据集进行详细说明。在步骤503中,图像数据集包括第一图像数据集,将目标实体与图像数据集中各候选图像所关联的文字信息进行匹配之前,方法还可以包括如下步骤:
在第一种可能的实现方式中,图像数据集包括第一图像数据集。
获取候选文本集合;其中,候选文本集合可以为专利文本集合,该候选文本集合包括多篇候选文本,每篇候选文本均包含候选实体;若执行主体为终端,该终端可以从服务器获取该候选文本集合,若该执行主体为服务器,该候选文本集合可以为服务器内部存储的,或者,也可以是服务器从另一台设备获取的,具体的不限定,本申请实施例中,该执行主体可以以服务器为例进行说明。
统计候选文本集合中每个候选实体出现的频次,例如,在该候选文本集合中,“发动机”出现的频次为10000次,“连杆”出现的频次为9900次,“下压机构”出现的频次为9800次等等,本示例中对于候选实体及其出现的频次仅为举例说明,并不造成对本申请实施例的限定性说明。
根据频次确定高频实体;其中,高频实体包括在候选文本集合中出现的频次高于门限的实体,例如高频实体为频次高于9000的实体。或者,高频实体包括按照频次进行排序后,在预置位置之前的实体,例如,将候选文本中出现的所有实体按照频次从高到低的顺序进行排序,选择排名在10000名之前的实体为高频实体。
将每个高频实体关联至少一个对应的候选图像,得到第一图像数据集。该第一图像数据集中的高频实体为出现的频率较高的实体。
可选的,图像数据集还包括第二图像数据集,将目标实体与图像数据集中各候选图像所关联的文字信息进行匹配之前,方法还可以包括如下步骤:
获取候选文本集合;其中,候选文本集合中的每篇候选文本包括附图说明与附图,附图说明包含候选实体及候选实体的标识,附图包含候选图像及标识;该候选文本集合中的每篇候选文本(如专利),每篇专利包括附图说明及附图,请参阅图10进行理解,图10为附图说明及附图的示意图。在图10中,附图说明中包含多个候选实体及每个候选实体在附图中对应的编号,如“豆浆机本体”对应编号“1”,在附图中编号“1”所对应的候选实体的候选图像为“豆浆机本体”的候选图像;“机头”对应编号“2”,在附图中编号“2”所对应的候选实体的候选图像为“机头”的候选图像。
根据标识建立候选实体与候选图像的关联关系,得到第二图像数据集。识别附图中的标识(如编号),将附图说明中的编号与附图中的编号匹配,然后将相同编号对应的候选实体与候选图像进行关联,得到该第二图像数据集。
可选的,图像数据集还包括第三图像数据集,将目标实体与图像数据集中各候选图像所关联的文字信息进行匹配之前,方法还可以包括如下步骤:
获取候选文本集合;其中,候选文本集合中的每篇候选文本包括标题及摘要附图;该候选文本还是以专利为例,每篇专利均会包括标题及摘要附图,该摘要附图为可以表示本篇专利的主要附图。如,该专利的标题为“一种豆浆机”。
提取候选文本中的摘要附图。
识别标题中的候选实体;如通过实体提取模型提取“一种豆浆机”中的候选实体为“豆浆机”。
建立候选实体与摘要附图的关联关系,得到第三图像数据集。建立该“豆浆机”与该摘要附图的关联关系。
需要说明的是,该图像数据集可以包括第一图像数据集、第二图像数据集和第三图像数据集中的至少一个图像数据集。本申请实施例中,以该图像数据集包括第一图像数据集、第二图像数据集和第三图像数据集为例进行说明。
可选的,在上述步骤502中,将目标实体与图像数据集中各候选图像所关联的候选实体进行匹配的步骤可以具体包括如下步骤:
首先,将目标实体与第一图像数据集中各候选图像所关联的候选实体进行匹配;在第一图像数据集中包含的候选实体为出现频次较高的实体,可以先将目标实体与高频实体相匹配,以提高匹配速率。
若目标实体在第一图像数据集中未匹配到候选实体,则将目标实体与除了第一图像数据集之外的其他图像数据集中各候选图像所关联的候选实体进行匹配。若该目标实体在第一图像数据集中未匹配到候选实体,则将目标实体与第二图像数据集和/或第三图像数据集中各候选图像所关联的候选实体进行匹配。若目标实体在第一图像数据集中匹配到候选实体,则直接将该候选实体相关联的候选图像发送至终端,以使终端展示该候选实体。本申请实施例中,将目标实体先与第一图像数据集进行匹配,提高了匹配的速率。
可选的,在上述实施例的基础上,图像数据集还包括候选图像关系,候选图像关系包括至少两个候选图像及至少两个候选图像之间的关系。例如,候选图像关系为:(候选图像1连接候选图像2),如候选图像关系(豆浆机本体图像连接机头图像)。该候选图像关系是根据候选实体之间的关系得到的,如通过关系提取模型识别出候选实体之间的关系为“豆浆机本体”连接“机头”,则根据候选实体之间的关系确定候选实体所关联的图像之间的关系,即得到候选图像关系。
可选的,在上述实施例的基础上,当第一候选图像被包含于目标候选图像关系,如,在该图像数据集中,目标候选图像关系为(豆浆机本体图像连接机头图像),第一候选图像(如豆浆机本体图像)被包含于该目标候选图像中,方法还可以包括如下步骤:
首先确定目标候选图像关系中包含的第二候选图像,第二候选图像与第一候选图像具有关系;确定该目标候选图像关系中包含的第二候选图像(如机头图像)。
然后输出第一候选图像和第二候选图像。
在一个应用场景中,若用户输入的目标实体为“豆浆机”,想通过图像信息更生动的了解“豆浆机”的结构,终端将该目标实体发送给服务器,服务器将该目标实体(豆浆机)与图像数据集中每个候选图像所关联的候选实体相匹配,此时匹配到的候选实体为“豆浆机本体”,进一步的,该豆浆机本体所关联的第一候选图像(即豆浆机本体图像)与第二候选图像(即机头图像)具有连接关系,那么则输出第一候选图像(即豆浆机本体图像)和第二候选图像(即机头图像)。需要说明的是,本申请实施例中对于第二候选图像的数量并不限定,在实际应用中,该第一候选图像的数量并不限定,例如,该第一候选图像的数量为2个,每个第一候选图像均可能具有关联关系的第二候选图像,而第二候选图像的数量也不限定,例如,每个第一候选图像具有两个具有关联关系的第二候选图像,最后输出的图像数量为4个,输出的第一候选图像和第二候选图像可以为一个拓扑结构,如图11所示,图11为第一候选图像和第二候选图像的拓扑示意图。终端不仅展示“豆浆机”的图像信息及与“豆浆机”具有关系的其他图像信息。本实施例中,可以根据候选图像关系输出与第一候选图像具有关系的第二候选图像,不需要人工分析检索与第一候选图像有关联的其他图像,节省了人工成本,增加了应用场景。
在上述实施例的基础上,可选的,目标实体至少包括第一目标实体和第二目标实体,目标文本信息还包括第一目标实体与第二目标实体之间的第一关系;方法还可以具体包括如下步骤:
若第一目标实体与图像数据集中的第一候选图像所关联的第一候选实体相匹配,第二目标实体与图像数据集中的第二候选图像所关联的第二候选实体相匹配;则将第一目标实体与第二目标实体之间的第一关系,与,第一候选实体与第二候选实体之间的第二关系进行匹配;
若第一关系与第二关系相匹配,方法还包括:
输出第二候选图像。
在一个应用场景中,若用户输入的是第一目标实体为“豆浆机”,第二目标实体为“机头”,该第一目标实体与第二目标实体之间的第一关系为“连接”,若第一目标实体(豆浆机)与图像数据集中的第一候选图像所关联的第一候选实体(豆浆机本体)相匹配,第二目标实体(机头)与图像数据集中的第二候选图像(机头图像)所关联的第二候选实体相匹配,然后进一步匹配关系,该第一关系为“连接”,第一候选实体与该第二候选实体之间的第二关系为“连接”,若第一关系与第二关系相匹配,则输出第二候选图像。
可选的,建立候选图像之间的关系具体可以为:
提取候选文本中的候选实体及候选实体之间的关系;
根据候选实体之间的关系建立候选实体所关联的候选图像之间的关系。如,提取候选实体“豆浆机本体”与“机头”之间的关系为“连接”,建立候选实体“豆浆机本体”与候选实体“机头”之间的关系为连接关系。
可选的,提取候选文本中的候选实体及候选实体之间的关系具体可以包括如下步骤:
将候选文本输入到实体提取模型,通过实体提取模型识别候选文本中的候选实体;
将已识别候选实体的候选文本输入到关系提取模型,通过关系提取模型输出候选实体之间的关系。具体的,通过实体提取模型提取候选实体,及通过关系提取模型提取候选实体之间的关系可以参阅实施例1中步骤202及步骤203,此处不赘述。
可选的,目标文本信息为结构化表示的目标结构。
实施例5
请参阅图12所示,本申请实施例还提供了一种获取实体信息的方法,该方法应用于一种电子设备,该电子设备可以为服务器,也可以为终端,本申请实施例中的执行主体具体的并不限定。为了更好的理解本实施例,首先对本实施例中的词语进行说明:
需要说明的是,在本实施例中的实体与实体之间的“关联关系”与上述实施例1-实施例4中的实体与实体之前的“关系”含义相同。本申请实施例中对于关联关系的解释说明,也适用于上述实施例1-实施例4中对“关系”的解释说明。
关联关系的属性包括关系类型,关系类型包括但不限定于概念关系、所属关系、位置关系、顺序关系和逻辑关系。
其中,概念关系:指概括和具体的关系,即上下位关系,如相对于“汽车”,交通工具属于上位概念,相对于“公共汽车”,“汽车”属于上位概念。
该概念关系可以通过关系提取模型进行识别,该关系提取模型为上述实施例中的关系提取模型,可选的,本实施例中的关系提取模型是进一步对大量的专利文本中的权利要求书进行学习和训练得到的,权利要求书中包括大量的上下位概念,比如,连接组件包括螺钉和螺母,连接组件为上位概念,螺钉和螺母为下位概念,关系提取模型通过对大量的权利要求书的学习,该关系提取模型可以识别出文本中实体间的上下位关系。
所属关系:包括但不限定于包含关系、连接关系和并列关系。
1)包含关系:是根据包含关系定义的,上级实体包含下级实体,如上级组件包含下级组件,如汽车包含车轮,汽车和车轮之间为上下级关系关系。
2)连接关系:实体之间具有连接关系,如“底座”连接“LED灯”,底座与LED灯之间的关系为连接关系。
3)并列关系:实体之间具有并列关系,如“豆浆机”包含“上盖”和“下盖”,“上盖”和“下盖”之间没有包含关系,也没有连接关系,“上盖”和“下盖”是并列的,即“上盖”和“下盖”之间的关系是并列关系。
顺序关系:实体之间具有先后顺序关系。例如,步骤1:接收第一信号;步骤2:对信号进行处理,得到第二信号。第一信号和第二信号具有步骤上的顺序,即第一信号在先,第二信号在后,则第一信号和第二信号具有时间上的顺序关系,“第一信号”和“第二信号”为顺序关系。
位置关系:指在空间上的关系,如内、外、左、右、前、后等。如,“LED灯”设置于“底座”上,“LED灯”与“底座”具有位置关系。
逻辑关系:在自然语言的逻辑表述中以一个实体为基准位置,在该实体的预置范围内的查找至少一个实体,该基准位置的实体与预置范围内的至少一个实体为逻辑关系。例如,在一个自然语言逻辑表述中:一种双层下盖豆浆机,包括杯体以及机头,机头设在杯体上,机头包括一上盖和与该上盖相盖合的下盖,在机头上固定安装有电机和控制电路,电机轴向下延伸入电机室下方的杯体内,电机轴端部装有粉碎刀具。以该文本中的“电机”为基准位置,向前或向后g个字符,例如该g为10,则以电机为基准位置,向前10个字符,找到另一个实体“机头”,向后10个字符,找到“控制电路”和“电机轴”,则“机头”、“控制电路”和“电机轴”与“电机”为逻辑关系。
请参阅图12所示,本申请实施例中提供的一种获取实体信息的方法可以包括如下步骤:
步骤601、接收目标文本信息;其中,目标文本信息包括第一目标实体。
若执行主体为终端,终端接收用户输入的目标文本信息。若该执行主体为服务器,则服务器接收终端发送的目标文本信息。例如,该目标文本信息为“发动机”。本实施例中该执行主体可以以服务器为例进行说明。在一个应用场景中,如,终端接收用户输入的“发动机”,终端将该目标实体向服务器发送,该服务器接收该目标文本信息。需要说明的是,本申请实施例中的第一目标实体的数量并不限定,本示例中该目标实体为“发动机”只为示例性说明,并不造成对本申请的限定性说明。
步骤602、在数据集中检索与第一目标实体相匹配的第一候选实体;其中,数据集包含候选实体,及候选实体之间的关系,候选实体至少包括第一候选实体及与第一候选实体具有关联关系的第二候选实体。
该数据集可以是预先建立的,然后将该数据集进行存储,或者,该数据集也可以是从另一台设备获取的。下面对如何建立该数据集进行说明:
获取候选文本集合;其中,候选文本集合可以为专利文本集合,该候选文本集合包括多篇候选文本,每篇候选文本均包含候选实体;通过关系提取模型提取每篇候选文本中的候选实体,然后通过关系提取模型提取候选文本中的关系,得到候选实体及其之间的关系。根据候选实体,及候选实体之间的关联关系,得到数据集。
如第一目标实体为“豆浆机”,在数据集中与第一目标实体相匹配的第一候选实体,如该第一候选实体为“豆浆机本体”;在数据集中,与该第一候选实体“豆浆机本体”具有关联关系的第二候选实体“上盖”。需要说明的是,本申请实施例中的关联关系包括上述的所属关系、概念关系、顺序关系及逻辑关系。
如该第二候选实体可以为“上盖”,即第一候选实体与第二候选实体为所属关系(包含关系),该第二候选实体为与第一候选实体具有概念关系、顺序关系或逻辑关系的候选实体,此处不一一举例说明。
需要说明的是,本步骤中,第一目标实体与第一候选实体具体的匹配方法可以结合上述实施例4中的步骤503进行理解,此处不赘述。
步骤603、在数据集中选择与第一候选实体具有关联关系的第二候选实体。
在该数据集中选择与该第一候选实体具有关联关系的第二候选实体,例如,“上盖”与第一候选实体为包含关系,“电机”与第一候选实体为逻辑关系,“盖组件”第一候选实体为概念关系等等,此处不一一举例。
步骤604、输出第二候选实体。
服务器将该第二候选实体向终端发送,终端展示该第二候选实体。本实施例中,该第二候选实体的数量并不限定,而且该第二候选实体与第一候选实体之间的关联关系也不限定。
在一个应用场景中,当用户需要对豆浆机的相关结构进行改进时,用户可以输入“豆浆机”,终端接收用户输入的“豆浆机”,并将该“豆浆机”发送至服务器,服务器将该“豆浆机”与数据集中的候选实体进行匹配,该“豆浆机”与候选实体“豆浆机本体”相匹配,确定与该“豆浆机本体”具有关联关系的第二候选实体,服务器将该第二候选实体发送至终端,终端展示多个第二候选实体,可以以列表的形式展示多个第二候选实体。
本申请实施例中,接收目标文本信息;其中,目标文本信息包括第一目标实体;在数据集中检索与第一目标实体相匹配的第一候选实体;候选实体至少包括第一候选实体及与第一候选实体具有关联关系的第二候选实体;然后在数据集中选择与第一候选实体具有关联关系的第二候选实体;输出第二候选实体。本实施例中,可以根据第一目标实体自动推荐出与该第一目标实体具有关系的第二候选实体,避免了用户通过检索,逐篇文本进行分析,从而选择第二候选实体的方式,极大的节省了人工成本。
可选的,在上述实施例的基础上,关联关系的属性包括关系类型,目标文本信息还包括目标关系条件,目标关系条件用于表示目标实体与待获取的候选实体之间的关系类型;该目标关系条件可以是具体的文字表述,例如:包含,连接,下位等等。“包含”指示目标实体与待获取的候选实体之间的关系类型为所属关系;“连接”指示目标实体与待获取的候选实体之间的关系类型为所属关系,“下位”指示目标实体与待获取的候选实体之间的关系类型为概念关系。可选的,该目标关系条件也可以用标识来表示,比如,“bh”表示包含,“lj”表示“连接”等等。
在上述步骤603中,在数据集中选择与第一候选实体具有关联关系的第二候选实体的具体步骤还可以为:
根据第一候选实体在数据集中选择符合目标关系条件的类型的第二候选实体。
例如,该目标文本信息包括第一目标实体“豆浆机”,目标关系条件为“包含”,然后根据第一候选实体“豆浆机本体”在数据集中选择符合“包含”关系的第二候选实体,如该第二候选实体可以为“电机”、“上盖”和“下盖”等。
本实施例中,该目标文本信息还可以包括目标关系条件,进一步的,可以根据第一候选实体在数据集中选择符合目标关系条件的类型的第二候选实体,增加了适用场景。
可选的,在数据集中选择与第一候选实体具有关联关系的第二候选实体具体还可以包括:
根据第一候选实体在数据集中选择与第一候选实体具有关联关系的第二候选实体的多个第二候选实体;
根据预置规则从多个第二候选实体中选择目标第二候选实体,将目标第二候选实体作为第二候选实体。
在一种可以实现的方式中,确定多个第二候选实体中每个第二候选实体在数据集中出现的频次;例如,该多个第二候选实体为“电机”、“上盖”和“下盖”等。其中,“电机”在数据集中出现的频次大于门限,或者,该“电机”在数据集中出现的频次在所有第二候选实体中排名第一位。
根据频次从多个第二候选实体中选择目标第二候选实体,将目标第二候选实体作为第二候选实体。例如,可以选择“电机”为目标第二候选实体。
在另一种实现方式中,可以确定多个第二候选实体中每个第二候选实体所属的候选文本的相关日期,该相关日期包括但不限定于申请日期、提交日期和公开日期,该多个第二候选实体所属于不同的文本;
根据相关日期从多个第二候选实体中选择目标第二候选实体,将目标第二候选实体作为第二候选实体。该相关日期以公开日期为例进行说明,按照公开日期距离当前日期由近及远的顺序从多个第二候选实体中选择目标第二候选实体。例如,“电机”所属的专利文本的公开日期为2018.6.3,“上盖”所属的专利文本的公开日期为2017.5.4,“下盖”所属的专利文本的公开日期为2017.1.4,则可以选择离当前日期最近的公开日期对应的第二候选实体为目标第二候选实体。需要说明的是,对于本实施例中多个第二候选实体只是为了方便说明而举的例子,并不造成对本申请的限定性说明。
可选的,在上述实施例的基础上,关联关系的属性还包括关系维度,关系维度包括二元关系,或,二元关系至X元关系,X为大于或者等于3的整数,二元关系包括两个实体及两个实体之间的关系,X元关系包括X个实体,至少(X-1)个二元关系,(X-1)个二元关系通过关联实体连接。
可选的,在上述实施例的基础上,该第二候选实体的数量为多个,目标文本信息还包括第二目标实体及目标关系条件,在数据集中选择与第一候选实体具有关联关系的第二候选实体还可以具体包括:
在数据集中检索与第二目标实体相匹配的多个第二候选实体;
从多个第二候选实体中选择符合目标关系条件的目标第二候选实体;
输出R元关系组;其中,R为大于或者等于2,且小于或者等于N的整数,R元关系组包括多个R元关系,每个R元关系包括第一候选实体,目标第二候选实体及第一候选实体与目标第二候选实体之间的关系。
例如,第一目标实体为“发动机”,第二目标实体为“连杆”,目标关系条件为“连接”,第一候选实体为“发动机”和“引擎”等,在数据集中检索与第二目标实体相匹配的多个第二候选实体,该第二候选实体可以为“上连杆”、“下连杆”和“连杆组件”等,该R元关系组可以为二元关系组和/或三元关系组,本实施例中,该R元关系组可以以二元关系组为例进行说明,如,该二元关系组包括:二元关系1(发动机连接上连杆)、二元关系2(引擎连接下连杆)、二元关系3(引擎连接连杆组件)等。本实施例中可以根据第一目标实体,第二目标实体及其第一目标实体与第二目标实体之间的关系,自动检索出R元关系组并输出。
可选的,实体包括组件、和/或,属性,和/或,属性值。
目标实体包括目标组件,目标属性,和/或,目标属性值;候选实体包括候选组件、候选属性,和/或,候选属性值,候选实体与其所属的候选文本关联,例如,候选文本为专利文本,每篇专利文本都有专利号,该候选实体可以通过专利号与其所属的候选文本进行关联。方法还可以包括:
分别将目标组件与每个候选组件,目标属性与每个候选属性,和/或,目标属性值与每个候选属性值进行匹配;例如,目标组件为“电机”、目标属性为“电压”、该目标属性值为“220V”。
确定与目标组件相匹配的目标候选组件,目标候选属性,和/或,目标候选属性值;
获取与目标候选组件关联的第一候选文本,与目标候选属性关联的第二候选文本,和/或,与目标候选属性值关联的第三候选文本;该第一候选文本、第二候选文本和第三候选文本的数量并不限定,例如,包括“电机”的第一候选文本有100篇,包括“电压”的第二候选文本有80篇,包括“220V”的第三候选文本有80篇。该100篇第一候选文本、80篇第二候选文本和80篇第三候选文本中可以有相同的候选文本,例如候选文本XX中包含“电机”、“电压”和“220”,即该第一候选文本、第二候选文本和第三候选文本可以相同,也可以不同。需要说明的是,对于第一候选文本、第二候选文本和第三候选文本的数量仅是为了方便说明而举的例子,并不对本申请进行限定性说明。
输出第一候选文本、第二候选文本,和/或,第三候选文本。
具体的,通过列表的形式输出该第一候选文本、第二候选文本,和/或,第三候选文本,用户可以查看包含“电机”、“电压”、“220V”的候选文本,以利于用户详细查看包括目标组件、目标属性和/或目标属性值所属的候选文本中内容的详细描述。
可选的,在上述实施例的基础上,所述数据集包括候选关系,所述候选关系包括至少两个候选实体及所述至少两个候选实体之间的关系,所述目标文本信息包括目标关系,所述目标关系至少包括两个目标实体及所述目标实体之间的关系,所述两个目标实体包括所述第一目标实体和第二目标实体;
所述在所述数据集中选择与所述第一候选实体具有关联关系的第二候选实体的步骤还可以具体包括:
在所述数据集中检索与所述第二目标实体相匹配的目标候选实体,所述目标候选实体与所述第一候选实体具有关联关系;例如,目标关系包括第一目标实体为“盖体”,第二目标实体“上盖”,及该第一目标实体(“盖体”)与该第二目标实体(“上盖”)之间的关系(“包含”关系)。在数据集中检索与第二目标实体(“上盖”)相匹配的目标候选实体(如“上盖”或“上端盖”或“上盖体”等,具体的数量不限定),每个目标候选实体与第一目标实体(如盖体)都具有关联关系(如包含关系)。
根据所述候选关系查找包含所述目标候选实体的第一候选关系,其中,所述第一候选关系还包括第三候选实体,及所述目标候选实体与所述第三候选实体之间的关系;数据集中包含大量的候选关系,每个候选关系均会包含至少两个候选实体,及候选实体之间的关系;进一步的根据数据集中大量的候选关系,查找包含该目标候选实体(如“上盖”或“上端盖”或“上盖体”)的第一候选关系,为了简要说明,该目标候选实体以“上端盖”为例进行说明,该第一候选关系包括目标候选关系及第三候选实体(如,按钮、显示屏等),例如,该第一候选关系可以为:(上端盖设置按钮)或者(上端盖设置显示屏)等。需要说明的是,第一候选关系中目标候选实体与第一候选关系之间的关联关系并不限定,如可以是设置,连接,包含等等。
进一步的,在第一种实现方式中,将第一候选关系作为所述第二候选实体输出,如输出(上端盖设置按钮),服务器将该第一候选关系向终端发送,终端根据该第一候选关系展示该第一候选关系,即展示(上端盖设置按钮)。在一个应用场景中,若技术人员输入(盖体包含上盖),服务器可以自动推荐出与该目标关系相关联的组件,即“上盖”上可以设置有“按钮”,或“上盖”上可以设置“显示屏”,对技术人员对于技术改进具有极大的参考价值。在第二种可能的实现方式中,还可以输出所述第三候选实体。即直接输出第三候选实体(即按钮或显示屏)。
在第三种可能的实现方式中,还可以查找与所述第三候选实体相近似的候选实体,通过实施例1中步骤303所记载的通过两个实体的语义向量来判定两个实体之间的相似度,此处不赘述,选择与所述第三候选实体的相似度大于阈值的候选实体,例如,与该第三候选实体相近似的候选实体为“按键”,直接输出与该第三候选实体相近似的候选实体“按键”。
可选的,在第四种可能的实现方式中,还可以根据所述候选关系,将所述第三候选实体与各候选关系所包含的候选实体进行匹配,确定与所述第三候选实体相匹配的第四候选实体;例如,该第三候选实体为“按钮”、与所述第三候选实体(如“按钮”)相匹配的第四候选实体(如按键)。
将包含所述第四候选实体的第二候选关系作为所述第二候选实体,包含第四候选实体的第二候选关系可以为(按键设置于操作面板),输出该第二候选关系,在终端可以展示的内容为:盖体包含上盖,上盖设置按键,按键设置于操作面板,可选的,该展示的内容可以是结构化的文本,或者,结构化的图像。在一个应用场景中,若技术人员输入(盖体包含上盖),服务器可以自动推荐出与该目标关系相关联的组件,即“上盖”上可以设置有“按钮”,或“上盖”上可以设置“按键”,“按键”设置于“操作面板”上,服务器对实体的推荐对技术人员对于技术改进具有极大的参考价值。
可选的,在第五种可能的实现方式中,所述目标文本信息包括目标关系,所述目标关系至少包括两个目标实体及所述目标实体之间的关系,所述两个目标实体包括所述第一目标实体和第二目标实体;所述在所述数据集中选择与所述第一候选实体具有关联关系的第二候选实体还可以具体包括:
在所述数据集中检索与所述第二目标实体相匹配的目标候选实体,所述目标候选实体与所述第一候选实体具有关联关系;例如,目标关系包括第一目标实体为“盖体”,第二目标实体“上盖”,及该第一目标实体(“盖体”)与该第二目标实体(“上盖”)之间的关系(“包含”关系)。在数据集中检索与第二目标实体(“上盖”)相匹配的目标候选实体(如“上盖”或“上端盖”或“上盖体”等,具体的数量不限定),每个目标候选实体与第一目标实体(如盖体)都具有关联关系(如包含关系)。
可选的,在第五种可能的实现方式中,根据候选关系查找与所述目标候选实体具有关联关系的第五候选实体,所述第五候选实体被包含于第三候选关系,其中,所述第三候选关系包含所述第五候选实体、第六候选实体,及所述第五候选实体与所述第六候选实体之间的关系;如根据候选关系查找与所述目标候选实体(上端盖)具有关联关系的第五候选实体(豆浆机本体),所述第五候选实体被包含于第三候选关系中,该第三候选关系可以为(上端盖连接豆浆机本体),或者,该第三候选关系也可以为(豆浆机本体包含下端盖),该第六候选实体可以与目标候选实体相同,也可以不同。
进一步的,将所述第三候选关系作为所述第二候选实体输出。在一个应用场景中,若技术人员输入(盖体包含上盖),服务器可以自动推荐出与该目标关系相关联的候选关系,如终端可以展示的内容为:盖体包含上盖,上端盖连接豆浆机本体,豆浆机本体包含下端盖或者,盖体包含上盖,豆浆机本体连接底座,上盖与豆浆机本体具有连接的关系。本示例中,根据目标关系,服务器可以推荐与该目标关系具有关联关系的关系,增强了适用场景,服务器对关系的推荐对于技术改进具有极大的参考价值。
可选的,在第六种可能的实现方式中,根据所述候选关系确定包含所述第三候选关系的第四候选关系;如,该第四候选关系为:(上端盖连接豆浆机本体,豆浆机本体连接底座),进一步的,将所述第四候选关系作为所述第二候选实体输出。在一个应用场景中,若技术人员输入(盖体包含上盖),服务器可以自动推荐出与该目标关系相关联的候选关系,如终端可以展示的内容为:盖体包含上盖,上端盖连接豆浆机本体,豆浆机本体包含下端盖。本示例中,根据目标关系,服务器可以推荐与该目标关系具有关联关系的关系,增强了适用场景,服务器对关系的推荐对于技术改进具有极大的参考价值。
需要说明的是,本实施例中,对于候选关系,目标关系,候选实体都是示例性说明,并不造成对本申请的限定性说明。
可选的,在上述实施例的基础上,数据集还包括图像数据集,图像数据集包括多个候选图像,多个候选图像中的每个候选图像具有关联的候选实体,在数据集中选择与第一候选实体具有关系的第二候选实体之后,方法还包括:
根据第二候选实体查找图像数据集,确定与第二候选实体相关联的候选图像,将第二候选实体的候选图像作为第二候选实体。
例如,在一个应用场景中,第二候选实体为“上连杆”和“下连杆”,根据该第二候选实体查找图像数据集,确定与“上连杆”和“下连杆”相关联的候选图像,将“上连杆”的图像和“下连杆”的图像作为第二候选实体输出。
本实施例中,可以获取第二候选实体的候选图像,直接输出第二候选实体的候选图像,增强了第二候选实体的生动性,图像信息更易于用户理解第二候选实体。
可选的,在上述实施例的基础上,下面对如何建立图像数据集进行说明:
在一种实现方式中,图像数据集包括第一图像数据集,根据第二候选实体查找图像数据集,确定与第二候选实体相关联的候选图像之前,方法还包括:
获取候选文本集合,候选文本集合包括多篇候选文本,每篇候选文本均包含候选实体;
统计候选文本集合中每个候选实体出现的频次;
根据频次确定高频实体,高频实体为:出现的频次高于门限的实体,或者,高频实体为:按照频次进行排序后,在预置位置之前的实体;
将每个高频实体关联至少一个对应的候选图像,得到第一图像数据集。
在第二种实现方式中,图像数据集包括第二图像数据集,根据第二候选实体查找图像数据集,确定与第二候选实体相关联的候选图像之前,方法还包括:
获取候选文本集合,候选文本集合中的每篇候选文本包括附图说明与附图,附图说明包含候选实体及候选实体的标识,附图包含候选图像及标识;
根据标识建立候选实体与候选图像的关联关系,得到第二图像数据集。
在第三种实现方式中,图像数据集包括第三图像数据集,根据第二候选实体查找图像数据集,确定与第二候选实体相关联的候选图像之前,方法还包括:
获取候选文本集合,候选文本集合中的每篇候选文本包括标题及摘要附图;
提取候选文本中的摘要附图;
识别标题中的候选实体;
建立候选实体与摘要附图的关联关系,得到第三图像数据集。
本实施例中,该图像数据集包括第一图像数据集、第二图像数据集和/或第三图像数据集,该第一图像数据集、第二图像数据集和第三图像数据集的具体建立的方法可以参阅上述实施例4中建立图像数据的具体方法进行理解。
可选的,下面对如何查找图像数据集进行说明:
图像数据集包括第一图像数据集,第一图像数据集包含高频实体的候选图像,高频实体为使用频次高于门限的候选实体;
将根据第二候选实体查找第一图像数据集;
若在第一图像数据集中未查找到与第二候选实体相关联的候选图像,则根据第二候选实体查找除了第一图像数据集之外的其他图像数据集(如第二图像数据集和/或第三图像数据集)。
首先,将目标实体与第一图像数据集中各候选图像所关联的候选实体进行匹配;因为在第一图像数据集中包含的候选实体为出现频次较高的实体,可以先将目标实体与高频实体相匹配,以提高匹配速率。
若目标实体在第一图像数据集中未匹配到候选实体,则将目标实体与除了第一图像数据集之外的其他图像数据集中各候选图像所关联的候选实体进行匹配。若该目标实体在第一图像数据集中未匹配到候选实体,则将目标实体与第二图像数据集和/或第三图像数据集中各候选图像所关联的候选实体进行匹配。若目标实体在第一图像数据集中匹配到候选实体,则直接将该候选实体相关联的候选图像发送至终端,以使终端展示该候选实体。本申请实施例中,将目标实体先与第一图像数据集进行匹配,提高了匹配的速率。
实施例6
请参阅图13所示,本申请实施例提供了一种确定文本相似度的装置1000的一个实施例,该装置1000用于执行上述实施例2中电子设备所实际执行的方法步骤,该装置包括:
获取模块801,用于获取目标文本及候选数据集,所述候选数据集包括多个数组,所述多个数组中的每个数组表示一个实体的语义向量;所述每个数组包括多个元素,所述多个元素中的每个元素用于表示一篇候选文本;
实体提取模块802,用于提取所述获取模块801获取的所述目标文本中的目标实体集合,所述候选数据集的多个数组所表示的实体集合包含所述目标实体集合;
第一确定模块803,用于根据所述获取模块801获取的所述候选数据集确定所述实体提取模块802提取的所述目标实体集合中的每一个目标实体与每一篇所述候选文本中的每一个实体的语义向量的夹角值,确定实体相似度;
相似度确定模块804,根据所述第一确定模块803确定的所述实体相似度,确定所述目标文本与每一篇候选文本的目标相似度。
可选的该装置还包括第二确定模块805;第二确定模块805,还用于确定所述获取模块801获取的每一个目标实体的语义向量的终点与所述每一篇所述候选文本中的每一个实体的语义向量的终点之间的目标距离;
相似度确定模块804,用于根据所述候选数据集第一确定模块803确定所述目标实体集合中的每一个目标实体的语义向量与每一篇所述候选文本中的每一个实体的语义向量的夹角余弦值和所述第二确定模块805目标距离得到所述实体相似度。
可选的,相似度确定模块804还具体用于:针对每一篇候选文本,将所述目标文本中每一个目标实体的实体相似度进行累加,得到第一累加相似度;
根据所述第一累加相似度,确定所述目标文本与每一篇候选文本的目标相似度。
可选的,该装置还包括关系提取模块806;
关系提取模块806,用于提取获取模块801所述目标文本中目标实体之间的关系,得到目标关系集合;
获取模块801,还用于获取每篇候选文本中的候选关系集合;
相似度确定模块804,还用于根据所述第一确定模块803确定的实体相似度确定所述目标关系集合中的每个关系与所述候选关系集合中的每个候选关系的关系相似度;
根据所述实体相似度和关系相似度,确定所述目标文本与每一篇候选文本的目标相似度。
在一种可能的实现方式中,所述关系包括二元关系至X元关系,其中,X为大于等于2的整数,所述二元关系包括两个实体及两个实体之间的关系,所述X元关系包括(X-1)个二元关系,且所述(X-1)个二元关系通过关联实体连接。
可选的,关系提取模块806,还用于提取所述目标文本中的每两个目标实体之间的二元关系,得到目标文本的目标二元关系集合;
获取模块801,还用于获取每篇候选文本中的候选二元关系集合;
相似度确定模块804,还具体用于:
根据所述实体相似度确定所述目标二元关系集合中的每个二元关系与所述候选二元关系集合中的每个候选二元关系的二元关系相似度;
将所述目标文本中每一个二元关系的二元关系相似度进行累加,得到第二累加相似度;
根据所述第一累加相似度和所述第二累加相似度确定所述目标文本与每一篇候选文本的目标相似度。
可选的,该装置还包括关系确定模块807;
关系确定模块807,还用于根据所述实体提取模块802提取的目标二元关系集合,确定目标三元关系集合,所述目标三元关系集合中包含多个三元关系,所述三元关系包括至少两个二元关系,且所述至少两个二元关系中有相同的实体;
获取模块801,还用于获取每篇候选文本中的候选三元关系集合;
相似度确定模块804,还具体用于:根据所述二元关系相似度确定所述目标三元关系集合中的每个三元关系与所述候选三元关系集合中的每个候选三元关系的三元关系相似度;
将所述目标文本中每一个三元关系的三元关系相似度进行累加,得到第三累加相似度;
所述根据所述第一累加相似度、所述第二累加相似度和所述第三累加相似度确定所述目标文本与每一篇候选文本的目标相似度。
可选的,所述目标实体包括特定实体,所述方法还包括:
第一确定模块803,还用于确定所述特定实体的实体相似度;
相似度确定模块804,还具体用于:
针对每一篇候选文本,将所述特定实体的所述实体相似度进行累加,得到第四累加相似度;
根据所述第一累加相似度和所述第四累加相似度确定所述目标文本与每一篇候选文本的目标相似度。
可选的,获取模块801还具体用于:获取文本集合,所述文本集合包括P篇候选文本;
提取所述P篇候选文本中每篇候选文本中的实体,得到Q个实体;
根据所述P篇候选文本及每篇候选文本所包含的实体,确定目标矩阵,所述目标矩阵包括P行和Q列,所述P行中的每一行表示一篇候选文本,所述Q列中的每一列表示一个实体,所述P和所述Q为大于或者等于2的正整数;
对所述目标矩阵进行奇异值分解,得到所述候选数据集,所述候选数据集为矩阵。
可选的,所述目标文本为结构化的文本,获取模块801还具体用于:获取目标文本;
将所述目标文本输入到实体提取模型,通过所述实体提取模型识别所述目标文本中的实体;
将已识别到所述实体的目标文本输入到关系提取模型,通过所述关系提取模型提取所述实体之间的关系;
根据所述实体及所述实体之间的关系,对所述目标文本进行结构化表示,生成结构化的文本。
可选的,根据所述目标相似度确定所述目标文本与每一篇候选文本的新颖度,所述新颖度与所述目标相似度反相关。
可选的,实体提取模块802,还具体用于:将所述目标文本作为实体提取模型的输入,通过所述实体提取模型提取所述目标文本中的目标实体集合,所述实体提取模型是对所述第一语料集合进行训练得到的,所述第一语料集合是对第一文本集合中的每篇文本进行实体语料标注得到的。
可选的,关系提取模块806,还具体用于:将已识别到所述目标实体集合的目标文本输入到关系提取模型,通过所述关系提取模型提取所述目标实体之间的关系;所述关系提取模型是对所述第二语料信息集合进行训练的,所述第二语料集合是对所述第二文本集合的每篇文本进行关系语料标注及实体标注得到的。
请参阅图14,本申请实施例还提供一种电子设备70,电子设备70包括:存储器710、收发器720和处理器730。本领域技术人员将领会,电子设备还可以包括其它组件,例如在计算机中常见的各种组件。存储器710、收发器720和处理器730之间相互通信,存储器710用于存储计算机指令,收发器720用于与其它装置进行通信,计算机指令在处理器730执行时使电子设备70执行上述各方法实施例中所描述的方法。
本申请实施例还提供了一种计算机存储介质,用于储存为打印设备所用的计算机软件指令,其包含用于执行方法实施例中打印设备所执行的方法。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (16)

1.一种确定文本相似度的方法,其特征在于,包括:
获取目标文本及候选数据集,所述候选数据集包括多个数组,所述多个数组中的每个数组表示一个实体的语义向量;所述实体被包含于候选文本中;
提取所述目标文本中的目标实体集合,所述候选数据集的多个数组所表示的实体集合包含所述目标实体集合;
根据所述候选数据集确定所述目标实体集合中的每一个目标实体的语义向量与每一篇所述候选文本中的每一个候选实体的语义向量的夹角余弦值,得到实体相似度;
根据所述实体相似度,确定所述目标文本与每一篇候选文本的目标相似度。
2.根据权利要求1所述的方法,其特征在于,所述获取目标文本及候选数据集之后,所述根据所述实体相似度,确定所述目标文本与每一篇候选文本的目标相似度之前,所述方法还包括:
确定所述每一个目标实体的语义向量的终点与所述每一篇所述候选文本中的每一个实体的语义向量的终点之间的目标距离;
所述根据所述候选数据集确定所述目标实体集合中的每一个目标实体的语义向量与每一篇所述候选文本中的每一个实体的语义向量的夹角余弦值,得到实体相似度,包括:
根据所述候选数据集确定所述目标实体集合中的每一个目标实体的语义向量与每一篇所述候选文本中的每一个实体的语义向量的夹角余弦值和所述目标距离得到所述实体相似度。
3.根据权利要求1中所述的方法,其特征在于,所述方法还包括:
提取所述目标文本中目标实体之间的关系,得到目标关系集合;
获取每篇候选文本中的候选关系集合;根据所述实体相似度确定所述目标关系集合中的每个关系与所述候选关系集合中的每个候选关系的关系相似度;
所述根据所述实体相似度,确定所述目标文本与每一篇候选文本的目标相似度,包括:
根据所述实体相似度和关系相似度,确定所述目标文本与每一篇候选文本的目标相似度。
4.根据权利要求1所述的方法,其特征在于,所述关系包括二元关系至X元关系,其中,X为大于等于2的整数,所述二元关系包括两个实体及两个实体之间的关系,所述X元关系包括(X-1)个二元关系,且所述(X-1)个二元关系通过关联实体连接。
5.根据权利要求1所述的方法,其特征在于,所述根据所述实体相似度,确定所述目标文本与每一篇候选文本的目标相似度,包括:
针对每一篇候选文本,将所述目标文本中每一个目标实体的实体相似度进行累加,得到第一累加相似度;
根据所述第一累加相似度,确定所述目标文本与每一篇候选文本的目标相似度。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
提取所述目标文本中的每两个目标实体之间的二元关系,得到目标文本的目标二元关系集合;
获取每篇候选文本中的候选二元关系集合;
根据所述实体相似度确定所述目标二元关系集合中的每个二元关系与所述候选二元关系集合中的每个候选二元关系的二元关系相似度;
将所述目标文本中每一个二元关系的二元关系相似度进行累加,得到第二累加相似度;
所述根据所述第一累加相似度,确定所述目标文本与每一篇候选文本的目标相似度,包括:
根据所述第一累加相似度和所述第二累加相似度确定所述目标文本与每一篇候选文本的目标相似度。
7.根据权利要求6所述的方法,其特征在于,所述提取所述目标文本中的每两个实体之间的二元关系,得到目标文本的目标二元关系集合之后,所述方法还包括:
根据所述目标二元关系集合,确定目标三元关系集合,所述目标三元关系集合中包含多个三元关系,所述三元关系包括至少两个二元关系,且所述至少两个二元关系中有相同的实体;
获取每篇候选文本中的候选三元关系集合;
根据所述二元关系相似度确定所述目标三元关系集合中的每个三元关系与所述候选三元关系集合中的每个候选三元关系的三元关系相似度;
将所述目标文本中每一个三元关系的三元关系相似度进行累加,得到第三累加相似度;
所述根据所述第一累加相似度和所述第二累加相似度确定所述目标文本与每一篇候选文本的目标相似度,包括:
所述根据所述第一累加相似度、所述第二累加相似度和所述第三累加相似度确定所述目标文本与每一篇候选文本的目标相似度。
8.根据权利要求3所述的方法,其特征在于,所述目标实体包括特定实体,所述方法还包括:
确定所述特定实体的实体相似度;
针对每一篇候选文本,将所述特定实体的所述实体相似度进行累加,得到第四累加相似度;
所述根据所述第一累加相似度,确定所述目标文本与每一篇候选文本的目标相似度,包括:
根据所述第一累加相似度和所述第四累加相似度确定所述目标文本与每一篇候选文本的目标相似度。
9.根据权利要求1所述的方法,其特征在于,所述获取候选数据集,包括:
获取文本集合,所述文本集合包括N篇候选文本;
提取所述n篇候选文本中每篇候选文本中的实体,得到m个实体;
根据所述n篇候选文本及每篇候选文本所包含的实体,确定目标矩阵,所述目标矩阵包括n行和m列,所述n行中的每一行表示一篇候选文本,所述M列中的每一列表示一个实体,所述n和所述m为大于或者等于2的正整数;
对所述目标矩阵进行奇异值分解,得到所述候选数据集,所述候选数据集为矩阵。
10.根据权利要求1-9中任一项所述的方法,其特征在于,所述目标文本为结构化的文本,所述获取目标文本,包括:
获取目标文本;
将所述目标文本输入到实体提取模型,通过所述实体提取模型识别所述目标文本中的实体;
将已识别到所述实体的目标文本输入到关系提取模型,通过所述关系提取模型提取所述实体之间的关系;
根据所述实体及所述实体之间的关系,对所述目标文本进行结构化表示,生成结构化的文本。
11.根据权利要求1-9中任一项所述的方法,其特征在于,所述方法还包括:
根据所述目标相似度确定所述目标文本与每一篇候选文本的新颖度,所述新颖度与所述目标相似度反相关。
12.根据权利要求1-9中任一项所述的方法,其特征在于,所述提取所述目标文本中的目标实体集合,包括:
将所述目标文本作为实体提取模型的输入,通过所述实体提取模型提取所述目标文本中的目标实体集合,所述实体提取模型是对所述第一语料集合进行训练得到的,所述第一语料集合是对第一文本集合中的每篇文本进行实体语料标注得到的。
13.根据权利要求4所述的方法,其特征在于,所述提取所述目标文本中的每两个实体之间的关系,包括:
将已识别到所述目标实体集合的目标文本输入到关系提取模型,通过所述关系提取模型提取所述目标实体之间的关系;所述关系提取模型是对所述第二语料信息集合进行训练的,所述第二语料集合是对所述第二文本集合的每篇文本进行关系语料标注及实体标注得到的。
14.一种确定文本相似度的装置,其特征在于,包括:
获取模块,用于获取目标文本及候选数据集,所述候选数据集包括多个数组,所述多个数组中的每个数组表示一个实体的语义向量;所述每个数组包括多个元素,所述多个元素中的每个元素用于表示一篇候选文本;
实体提取模块,用于提取所述获取模块获取的所述目标文本中的目标实体集合,所述候选数据集的多个数组所表示的实体集合包含所述目标实体集合;
第一确定模块,用于根据所述获取模块获取的所述候选数据集确定所述实体提取模块提取的所述目标实体集合中的每一个目标实体与每一篇所述候选文本中的每一个实体的语义向量的夹角值,确定实体相似度;
第二确定模块,根据所述第一确定模块确定的所述实体相似度,确定所述目标文本与每一篇候选文本的目标相似度。
15.一种电子设备,其特征在于,包括:
存储器和处理器;
所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-13中任一项所述的方法。
16.一种计算机存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-13中任一项所述的方法。
CN201811347339.3A 2018-11-13 2018-11-13 一种确定文本相似度的方法及相关装置 Active CN109597878B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811347339.3A CN109597878B (zh) 2018-11-13 2018-11-13 一种确定文本相似度的方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811347339.3A CN109597878B (zh) 2018-11-13 2018-11-13 一种确定文本相似度的方法及相关装置

Publications (2)

Publication Number Publication Date
CN109597878A true CN109597878A (zh) 2019-04-09
CN109597878B CN109597878B (zh) 2020-06-05

Family

ID=65957760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811347339.3A Active CN109597878B (zh) 2018-11-13 2018-11-13 一种确定文本相似度的方法及相关装置

Country Status (1)

Country Link
CN (1) CN109597878B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188330A (zh) * 2019-05-31 2019-08-30 三角兽(北京)科技有限公司 确定相似文本信息的方法、装置、电子设备及存储介质
CN110888990A (zh) * 2019-11-22 2020-03-17 深圳前海微众银行股份有限公司 文本推荐方法、装置、设备及介质
CN111611807A (zh) * 2020-05-18 2020-09-01 北京邮电大学 一种基于神经网络的关键词提取方法、装置及电子设备
CN111930898A (zh) * 2020-09-18 2020-11-13 北京合享智慧科技有限公司 文本评价方法、装置、电子设备及存储介质
US10909317B2 (en) 2019-07-26 2021-02-02 Advanced New Technologies Co., Ltd. Blockchain-based text similarity detection method, apparatus and electronic device
WO2021017440A1 (zh) * 2019-07-26 2021-02-04 创新先进技术有限公司 基于区块链的文本相似性检测方法及装置、电子设备
CN112541359A (zh) * 2020-11-27 2021-03-23 北京百度网讯科技有限公司 文档内容识别方法、装置、电子设备及介质
CN117935560A (zh) * 2024-03-14 2024-04-26 中南大学 一种交通出行交互流量预测方法、系统、终端设备及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744889A (zh) * 2013-12-23 2014-04-23 百度在线网络技术(北京)有限公司 一种用于对问题进行聚类处理的方法与装置
CN105653706A (zh) * 2015-12-31 2016-06-08 北京理工大学 一种基于文献内容知识图谱的多层引文推荐方法
CN106547739A (zh) * 2016-11-03 2017-03-29 同济大学 一种文本语义相似度分析方法
CN106815179A (zh) * 2015-11-27 2017-06-09 阿里巴巴集团控股有限公司 一种文本相似度确定方法及装置
CN106934032A (zh) * 2017-03-14 2017-07-07 软通动力信息技术(集团)有限公司 一种城市知识图谱构建方法及装置
CN107871158A (zh) * 2016-09-26 2018-04-03 清华大学 一种结合序列文本信息的知识图谱表示学习方法及装置
CN108090047A (zh) * 2018-01-10 2018-05-29 华南师范大学 一种文本相似度的确定方法及设备
CN108549634A (zh) * 2018-04-09 2018-09-18 北京信息科技大学 一种中文专利文本相似度计算方法
CN108763566A (zh) * 2018-06-05 2018-11-06 北京玄科技有限公司 文本相似度计算方法及装置、智能机器人

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744889A (zh) * 2013-12-23 2014-04-23 百度在线网络技术(北京)有限公司 一种用于对问题进行聚类处理的方法与装置
CN106815179A (zh) * 2015-11-27 2017-06-09 阿里巴巴集团控股有限公司 一种文本相似度确定方法及装置
CN105653706A (zh) * 2015-12-31 2016-06-08 北京理工大学 一种基于文献内容知识图谱的多层引文推荐方法
CN107871158A (zh) * 2016-09-26 2018-04-03 清华大学 一种结合序列文本信息的知识图谱表示学习方法及装置
CN106547739A (zh) * 2016-11-03 2017-03-29 同济大学 一种文本语义相似度分析方法
CN106934032A (zh) * 2017-03-14 2017-07-07 软通动力信息技术(集团)有限公司 一种城市知识图谱构建方法及装置
CN108090047A (zh) * 2018-01-10 2018-05-29 华南师范大学 一种文本相似度的确定方法及设备
CN108549634A (zh) * 2018-04-09 2018-09-18 北京信息科技大学 一种中文专利文本相似度计算方法
CN108763566A (zh) * 2018-06-05 2018-11-06 北京玄科技有限公司 文本相似度计算方法及装置、智能机器人

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188330A (zh) * 2019-05-31 2019-08-30 三角兽(北京)科技有限公司 确定相似文本信息的方法、装置、电子设备及存储介质
CN110188330B (zh) * 2019-05-31 2021-07-16 腾讯科技(深圳)有限公司 确定相似文本信息的方法、装置、电子设备及存储介质
US10909317B2 (en) 2019-07-26 2021-02-02 Advanced New Technologies Co., Ltd. Blockchain-based text similarity detection method, apparatus and electronic device
WO2021017440A1 (zh) * 2019-07-26 2021-02-04 创新先进技术有限公司 基于区块链的文本相似性检测方法及装置、电子设备
US11100284B2 (en) 2019-07-26 2021-08-24 Advanced New Technologies Co., Ltd. Blockchain-based text similarity detection method, apparatus and electronic device
CN110888990A (zh) * 2019-11-22 2020-03-17 深圳前海微众银行股份有限公司 文本推荐方法、装置、设备及介质
CN110888990B (zh) * 2019-11-22 2024-04-12 深圳前海微众银行股份有限公司 文本推荐方法、装置、设备及介质
CN111611807A (zh) * 2020-05-18 2020-09-01 北京邮电大学 一种基于神经网络的关键词提取方法、装置及电子设备
CN111930898A (zh) * 2020-09-18 2020-11-13 北京合享智慧科技有限公司 文本评价方法、装置、电子设备及存储介质
CN112541359A (zh) * 2020-11-27 2021-03-23 北京百度网讯科技有限公司 文档内容识别方法、装置、电子设备及介质
CN112541359B (zh) * 2020-11-27 2024-02-02 北京百度网讯科技有限公司 文档内容识别方法、装置、电子设备及介质
CN117935560A (zh) * 2024-03-14 2024-04-26 中南大学 一种交通出行交互流量预测方法、系统、终端设备及介质

Also Published As

Publication number Publication date
CN109597878B (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN109582800A (zh) 一种训练结构化模型、文本结构化的方法及相关装置
CN109597878A (zh) 一种确定文本相似度的方法及相关装置
CN109582933A (zh) 一种确定文本新颖度的方法及相关装置
CN111061946B (zh) 场景化内容推荐方法、装置、电子设备及存储介质
CN112100529B (zh) 搜索内容排序方法、装置、存储介质和电子设备
KR20180041200A (ko) 정보 처리 방법 및 장치
US20110191336A1 (en) Contextual image search
KR20170001550A (ko) 인공 지능에 기초한 인간-컴퓨터 지능형 채팅 방법 및 장치
CN113505204B (zh) 召回模型训练方法、搜索召回方法、装置和计算机设备
CN109635277A (zh) 一种获取实体信息的方法及相关装置
CN110019650B (zh) 提供搜索联想词的方法、装置、存储介质及电子设备
CN113254711B (zh) 一种互动图像的显示方法、装置、计算机设备和存储介质
CN110134885A (zh) 一种兴趣点推荐方法、装置、设备以及计算机存储介质
CN109145083B (zh) 一种基于深度学习的候选答案选取方法
CN114691831A (zh) 一种基于知识图谱的任务型汽车故障智能问答系统
CN111159431A (zh) 基于知识图谱的信息可视化方法、装置、设备及存储介质
CN115129883B (zh) 实体链接方法和装置、存储介质及电子设备
CN112231554A (zh) 一种搜索推荐词生成方法、装置、存储介质和计算机设备
CN116662495A (zh) 问答处理方法、训练问答处理模型的方法及装置
CN117271818B (zh) 视觉问答方法、系统、电子设备及存储介质
CN109635139A (zh) 一种获取图像信息的方法及相关装置
CN117786068A (zh) 知识问答方法、装置、设备及可读存储介质
CN116561339A (zh) 知识图谱实体链接方法、装置、计算机设备及存储介质
CN112070852A (zh) 图像的生成方法和系统、数据处理方法
CN115269961A (zh) 内容搜索方法以及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant