CN109408743A - 文本链接嵌入方法 - Google Patents
文本链接嵌入方法 Download PDFInfo
- Publication number
- CN109408743A CN109408743A CN201810956003.0A CN201810956003A CN109408743A CN 109408743 A CN109408743 A CN 109408743A CN 201810956003 A CN201810956003 A CN 201810956003A CN 109408743 A CN109408743 A CN 109408743A
- Authority
- CN
- China
- Prior art keywords
- entry
- entity
- feature vector
- character level
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 claims abstract description 163
- 238000000034 method Methods 0.000 claims abstract description 60
- 238000003780 insertion Methods 0.000 claims abstract description 13
- 230000037431 insertion Effects 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 78
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 14
- 238000005520 cutting process Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000007689 inspection Methods 0.000 abstract description 5
- 230000011218 segmentation Effects 0.000 description 10
- 230000006399 behavior Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000012966 insertion method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Abstract
本发明涉及互联网文本分析技术领域,具体涉及一种文本链接嵌入方法,所述方法是根据预设的字符级特征向量进行向量拼接得出待检测文本的目标词条和知识实体库中实体的特征向量,然后计算实体和目标词条的特征向量相似度以找到与目标词条对应的相似实体,最后将所述相似实体对应的实体链接信息嵌入对应的目标词条以完成文本链接嵌入。本发明的文本链接嵌入方法通过将实体和目标词条转换成能够保留语义特征的特征向量,根据目标词条和实体的特征向量相似度判断目标词条与实体之间词义是否相似。这样一来,即使是在同义不同词的情况下,也能做到目标词条与实体的精准匹配,从而有效地避免出现实体漏检情况。
Description
技术领域
本发明涉及互联网文本分析技术领域,具体涉及一种文本链接嵌入方法。
背景技术
随着知识图谱相关技术的发展,各类知识库、百科类应用层出不穷,为用户提供了很多高质量的内容。但目前对于此类内容多以用户主动搜索为主,使用频率较低。由于超链接是互联网页面的常见展示形式,因此现阶段通常会在文本中嵌入超链接以解决上述问题。超链接嵌入方法是通过获取文章中的文本与实体知识库中实体的关联关系,然后在文本内容中增加对应的实体链接入口。当用户点击已经链接的文本后,链接目标将显示在浏览器上。通过这种方式可以显著提升知识获取的便利性与用户体验。
现有技术的超链接嵌入方法通常是以关键词匹配方法为基础,对文章文本内容提取关键词,并将关键词与实体知识库中的实体进行匹配,通过获取关键词对应的实体的超链接锚点,从而完成替换以实现超链接的嵌入。但是由于该方法强烈依赖于实体知识库构建的词典的词汇的覆盖率,在关键词为实体知识库中未收录的词汇的情况下,便不能实现关键词的配对;并且针对不同文本内容,不同作者对于同一概念的理解常常存在分歧,因此会出现同一对象具有不同的名称,此时,文本中的关键词不能准确与实体知识库中的实体对应,从而经常造成文档中大量实体漏检。
相应地,本领域需要一种新的文本链接嵌入方法来解决上述问题。
发明内容
为了解决现有技术中的上述问题,即当前使用关键词匹配策略进行超链接替换时存在的实体漏检缺陷的问题,本发明提供了一种文本链接嵌入方法,所述方法包括:对待检测文本进行分词得到目标词条,对所述目标词条进行字符级切分,得到所述目标词条对应的字符级目标词条;根据所述字符级目标词条与预设的字符级特征向量进行向量拼接得出所述目标词条的特征向量;计算所述目标词条与预设实体知识库中每个实体之间的特征向量相似度,并且根据所述特征向量相似度获取所述目标词条对应的相似实体;将所述相似实体对应的实体链接信息嵌入对应的目标词条;其中,所述实体知识库是基于知识图谱结构构建的知识库。
在上述文本链接嵌入方法的优选技术方案中,在“根据所述字符级目标词条与预设的字符级特征向量进行向量拼接得出所述目标词条的特征向量”的步骤之前,所述方法还包括:对预设的文本训练集进行分词得到训练目标词条,根据预设的字符级分词粒度对所述训练目标词条进行切分,得到字符级训练目标词条;利用机器学习算法获取所述字符级训练目标词条的字符级特征向量。
在上述文本链接嵌入方法的优选技术方案中,在“计算所述目标词条与预设实体知识库中每个实体之间的特征向量相似度,并且根据所述特征向量相似度获取所述目标词条对应的相似实体”的步骤之前,所述方法还包括:根据预设的字符级分词粒度对所述实体知识库中的实体进行切分,得到所述实体对应的字符级实体;根据所述字符级实体与预设的字符级特征向量拼接出所述实体的特征向量。
在上述文本链接嵌入方法的优选技术方案中,“利用机器学习算法获取所述字符级训练目标词条的字符级特征向量”的步骤具体包括:
按照下式所示的目标函数Ld并且利用所述机器学习算法获取所述训练目标词条的字符级向量:
其中,所述T是所述文本训练集中训练目标词条的总数,所述Ux是所述训练文本对应的训练目标词条的集合,所述wt是集合Ux中第t个训练目标词条,所述Ct是wt的上下文的训练目标词条的集合,wc是集合Ct中的第c个训练目标词条;所述wv是集合Ux中的第v个词条,所述α是预设的影响因子,所述Q是预设的同义词约束系数;
其中,所述Gt是根据所述字符级分词粒度对wt进行分词后得到的字符级目标词条的集合;gi是集合Gt中第i个字符级词条;Zgi是gi的字符级特征向量;是利用集合Gt中每个字符级训练目标词条拼接得到的训练目标词条wt的特征向量;fc是wc的特征向量,fv为wv的特征向量。
在上述文本链接嵌入方法的优选技术方案中,所述同义词约束系数Q如下式所示:
其中,所述R是预设的共现实体对的关系的集合,R包括多个共现实体对的关系;所述Relation(wt,wc)表示wt与wc这两个实体对应的关系;所述y表示Relation(wt,wc)关系中两个实体是同义词的概率。
在上述文本链接嵌入方法的优选技术方案中,“计算所述目标词条与预设实体知识库中每个实体之间的特征向量相似度,并且根据所述特征向量相似度获取所述目标词条对应的相似实体”的步骤具体包括:利用预设的聚类算法对所述预设实体知识库中的实体进行聚类得到多个实体集合;获取与所述目标词条相似度最高的实体集合;分别计算所述目标词条与所获取的实体集合中每个实体之间的特征向量相似度。
在上述文本链接嵌入方法的优选技术方案中,“分别计算所述目标词条与所获取的实体集合中每个实体之间的特征向量相似度”的步骤包括:按照下式所示的相似度计算函数计算目标词条与实体之间的特征向量相似度:
其中,所述Similarity(Fi,Fj)表示预先获得的包含所有目标词条的集合中第i个目标词条的特征向量Fi与所述实体知识库中第j个实体的特征向量Fj之间的特征向量相似度,所述fk(Fi)是所述特征向量Fi中的第k个特征值,所述fk(Fj)是所述特征向量Fj中的第k个特征值,所述m是特征向量Fi与特征向量Fj中特征值的总数。
在上述文本链接嵌入方法的优选技术方案中,“根据所述特征向量相似度获取所述目标词条对应的相似实体”的步骤包括:判断特征向量相似度最大值是否大于等于预设的相似度阈值:若是,则将所述特性向量相似度最大值对应的实体作为当前目标词条的相似实体。
在上述文本链接嵌入方法的优选技术方案中,“将所述相似实体对应的实体链接信息嵌入对应的目标词条”的步骤具体包括:获取所述相似实体对应的链接信息;将所述目标词条替换成包含所述目标词条与链接信息的文本。
本发明提供了一种文本链接嵌入方法,该方法是在通过计算实体和目标词条的特征向量相似度以找到与目标词条对应的相似实体,相较于现有技术中将目标词条与实体直接进行匹配的方式,本发明的方法是通过将实体和目标词条转换成能够保留语义特征的特征向量,根据目标词条和实体的特征向量相似度判断目标词条与实体之间词义是否相似,进而判断两者是否匹配。这样一来,即使是在同义不同词的情况下,也能做到目标词条与实体的精准匹配,从而有效地避免出现实体漏检情况,提高了链接嵌入的有效性与准确性。并且,通过将目标词条和实体切分成字符级词条,根据字符级词条与预设的字符级特征向量进行向量拼接得出目标词条和实体的特征向量这种向量拼接的方式可以使得拼接出的特征向量能够更加完整和全面地保留语义特征,从而有利于提高目标词条与实体的匹配精准度。
在本发明的优选方案中,在词条的特征向量学习过程中,通过将训练目标词条细化成字符级词条以便于充分利用文本训练集中的词条来尽可能地扩大识别范围,减少在后续待识别文本的目标词条识别过程中出现未登录词查询不到的几率。其中,通过下列公式来学习字符级词条的字符级向量:
在上式中,表示分布式表示方法的似然函数,通过在上述似然函数中引入预设的同义词约束系数Q以便于克服分布式学习方法中存在的先验信息过强的问题,这样一来,可以学习到保留同义词特征的词条表示,使得语义相似的词条的特征向量也能相似,即使在目标词条与实体知识库中实体同义不同词的情况下,也能有效地识别出与目标词条对应的实体知识库中的相似实体,从而实现目标词条与实体的精准匹配。
本发明还提供了一种控制装置,包括处理器和存储设备,所述存储设备适于存储多条程序,所述程序适于由所述处理器加载以执行上述任一种方案中所述的文本链接嵌入方法。
可以理解的是,该控制装置具有上述文本链接嵌入方法所有的技术效果,在此不再赘述。
附图说明
下面参照附图来描述本发明的文本链接嵌入方法。附图中:
图1为本发明的一种实施例的文本链接嵌入方法的主要步骤示意图;
图2为本发明的一种实施例的文本链接嵌入方法的实体知识库的构建示例;
图3为本发明的一种实施例中字符级特征向量获取方法的主要步骤示意图;
图4为本发明的一种实施例中相似实体获取方法的主要步骤示意图;
图5为本发明的一种实施例中实体知识库预处理方法的主要步骤示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。例如,尽管本申请中按照特定顺序描述了本发明的方法的各个步骤,但是这些顺序并不是限制性的,在不偏离本发明的基本原理的前提下,本领域技术人员可以按照不同的顺序来执行所述步骤。
参照图1,图1为本发明的一种实施例的文本链接嵌入方法的主要步骤示意图。如图1所示,本发明的文本链接嵌入方法具体包括如下步骤。
步骤S1:根据现实世界中的实体类别,基于知识图谱结构构建实体知识库。
本发明的文本链接嵌入方法需要预先构建实体知识库,该实体知识库是根据现实世界中的实体类别,基于知识图谱结构预先构建的。具体而言,实体知识库包含实体,该实体指的是经由人工筛选过、定义清晰、边界明确、存在大量高质量结构化描述信息的特有名词。知识图谱指的是能够表示实体之间关系的语义网络,其可以对现实世界中各类实体及其关系进行形式化的描述。知识图谱结构是使用三元组对实体关系进行表示,这样能够为知识图谱带来极大的扩展性,便于覆盖各类实体关系。三元组的基本形式主要为:<实体1,关系,实体2、概念或属性值>,其中,属性与属性值主要指对象可能具有的属性、特征等,例如“肤色:黄色”、“年龄:20”等。概念主要指集合、类别、对象类型、事物的种类,例如任务、地理等。当以实体作为节点,实体间的关系做边,将所有的三元组以可视化的方式展示出来时,整个知识图谱将构成一个包含多种类型连边的有向图,从而可以对知识进行完整而清晰地描述。大量知识图谱被整合并按照知识体系分类组织,就形成了实体知识库。本发明的实体知识库中的每个实体对外通过唯一标识ID确定,通过属性-属性值来描述实体的内在特征,通过关系来连接两个实体,进而描述他们之间的关联。
参照图2,图2为本发明的一种实施例的文本链接嵌入方法的实体知识库的构建示例。如图2所示,作为一种具体的示例,以人工智能为例来对本发明的实体知识库的图谱结构进行展示,为了方便说明,图中仅展示出了实体间“is-a”关系(包含关系)的部分图谱结构。图中箭头代表实体与实体之间的关系R,箭头的起点和终点为具有R关系的实体。
根据实体类别信息对实体进行分类,示例性地,如下表1所示,将实体分为国家、领域、行业、公司、个人和概念6类。表1中的分类规则仅是示例性的,可以理解的是,也可按照其他预设规则对实体集进行分类,如可以将实体分为7类或者更多类。
表1实体分类
编号 | 实体类别 |
c=1 | 国家 |
c=2 | 领域 |
c=3 | 行业 |
c=4 | 公司 |
c=5 | 个人 |
c=6 | 概念 |
实体知识库中的每个实体都有对应的链接信息,每个实体所属的类别都预先定义有各类规则,当用户点击该链接时,根据该链接对应的实体所属的类别定义的规则来执行各类行为。如当实体所属类别为领域类别时,点击链接时执行的行为为:跳转至领域百科页面;当实体所属类别为公司时,点击链接时执行的行为为:跳转至公司主页;当实体所属类别为个人时,点击链接时执行的行为为:跳转至个人主页。
步骤S2:获取字符级特征向量。
本发明的文本链接嵌入方法需要预先学习实体的特征向量表示。该步骤是通过预设文本训练集来学习实体的特征向量。预设文本训练集包含实体知识库中所有的实体,同时也包含实体知识库中没有的实体。这样一来,在根据文本训练集学习实体知识库中每个实体的特征向量表示的同时,也能扩大学习的实体的词汇范围,从而有助于学习待检测文本中目标词条的特征向量。
参照图3,图3为本发明的一种实施例中字符级特征向量获取方法的主要步骤示意图。如图3所示,步骤S2具体包括如下步骤:
步骤S21:准备文本训练集,对文本训练集进行分词处理以获取文本训练集的字符级训练目标词条。
准备文本训练集,首先对文本训练集进行分词处理,如作为一种可能的示例,可以采用自动分词方法或者命名实体识别技术对文本训练集集进行分词处理,从而得到分词结果为Ux={w1,w2,w3,...,wt,......,wm},其中,Ux代表文本训练集中分割出的训练目标词条的集合,其中训练目标词条为词汇级词条;wt为集合Ux中第t个训练目标词条。然后根据设定字符级的分词粒度对文本训练集Ux的训练目标词条进行字符级切分,得到字符级分词结果Gt={g1,g2…gi…gz},其中,Gt代表训练目标词条wt的字符级词条的集合,gi代表集合Gt中第i个字符级训练目标词条。
以词汇级词条“人工智能”为例,设定字符级分词粒度为2,此处增加两个特别的标识“<”、“>”,分别代表词汇级词条的前缀和后缀,以便于将已被字符级切分的词条与该词条的上下文进行区分。上述“人工智能”词汇经字符级分词处理后结果为:
<人工,工智,智能>
其中“智能>”与“<智能>”并不代表相同词。
可以看出,通过将文本训练集中的词汇级词条细化成字符级词条,从而充分利用文本训练集中的字符级词条来尽可能地扩大识别范围,减少在后续待识别文本的目标词条识别过程中出现未登录词查询不到的几率。
步骤S22:基于分布式表示与规则匹配联合学习方法学习字符级训练目标词条的字符级特征向量。
在现有方法中,对于同义词的检测问题主要有两种解决方案,一种分布式表示方法,此种方法主要是以两条假设作为基础:1、上下文语境相似的词条往往含义接近;2、具有较高共现频率的实体对,通常含义接近。依据以上假设,分析上下文统计特征,进而使用机器学习方法习得词条的分布式表示,这种方法的优点是可以保留词条的语义特征,使得语义相似的词条的特征向量也能较为接近。该方法的缺点在于稳定性较低,特别是针对同义词检测类型的具体任务时,可能出现实体对共现而两者的词义不同的情况,从而导致准确度不高,而且上述两条假设引入的先验信息过强,容易引入噪声。如以第二条假设为例,有如下文本:“上个月我去了美国和澳大利亚”。其中美国与澳大利亚显然不是同义词。但根据第二条假设,则会将“美国”和“澳大利亚”这对实体作为同义词表示,从而导致噪声引入。
另一种方法是基于规则的匹配方法,主要是通过人工构建的规则库,根据训练数据,计算出各规则下的同义词出现情况。这种方法可以显著消除实体对共现而词义不同的影响,带来较高的精确度,但此种方法费时费力,而且效果有限,难以对规则库以外的模式产生作用。
本发明提出了一种分布式表示与规则匹配联合学习方法,该方法将分布式表示方法与规则匹配方法相结合,以分布式表示学习方法为基础,在分布式表示学习方法中引入规则匹配方法进行校正,以便于克服分布式学习中先验信息过强的问题,从而有效习得词条的分布式表示。
分布式表示学习方法是使用语言模型学习各词条的向量表示,下面以skip-gram模型为例,介绍字符级词条的特征向量的提取方法。这里需要说明的是,分布式表示学习方法的语言模型不仅限于skip-gram模型,本领域技术人员可以根据实际情况对语言模型的具体类型进行灵活的选择。
首先构建skip-gram模型的似然函数如下:
在公式(1)中,T是集合Ux中训练目标词条的总数,wt是集合Ux中第t个训练目标词条,Ct是wt的上下文的训练目标词条的集合,wc是集合Ct中的第c个训练目标词条。这里需要说明的是,wt的上下文是根据预设规则进行选取,其可以为wt的相邻词、所在句子或所在的文档等。如作为一种可能的示例,可以在训练目标词条wt的上文和下文中分别选取离训练目标词条wt最近的两个词条作为训练目标词条wt的上下文词条,这四个词条组成的集合就是Ct。
将上下文的预测概率设定为softmax函数,具体公式如下:
在公式(2)中,wv是集合Ux中的第v个训练目标词条。
设定评分函数,以评估一对词条的得分情况:
在公式(3)和(4)中,Gt是训练目标词条wt的字符级词条的集合;gi是集合Gt中第i个字符级词条;Zgi是gi的字符级特征向量;是训练目标词条wt的词汇级特征向量;fc是wc的特征向量,fv为wv的特征向量。
由公式(1)-(4)整理得:
接下来,在分布式学习过程中引入规则匹配方法进行约束,从而克服分布式学习方法存在的先验信息过强的问题。具体步骤如下:
首先构建规则库。在本阶段中,通过对文本训练集进行统计分析,将文本训练集中的训练目标词条作为实体,记录下文本训练集中的实体对共现时的实体关系。需要说明的是,此处的实体关系是指:根据表1定义,计算实体1与实体2共现时,实体1和实体2所属的实体类别的关系,如示例性地,实体1所属类别为公司,实体2所属类别为个人,则实体1和实体2的关系就是公司-个人的关系。所有关系的集合为R,ra是集合R中第a种关系,ya是ra关系下的共现实体对为同义词的概率,ya的具体计算公式如下:
在公式(6)中,Ns为ra关系下的共现实体对为同义词的次数,Nu为ra关系下共现实体对为非同义词的次数。
通过计算集合R下每种关系下的同义词概率从而获得了各类关系下的同义词先验信息。
根据先前所构建的规则库信息,以及文本训练集中的每个共现实体对的关系,在上述分布式表示的似然函数中引入同义词约束系数以实现校正,其中同义词约束是按照下式得出:
在公式(7)中,Q是同义词约束系数,Relation(wt,wc)表示训练目标词条wt与训练目标词条wc的关系;则y表示Relation(wt,wc)关系下的共现实体对为同义词的概率。
上式的判断过程如下:首先判断训练目标词条wt与训练目标词条wc的关系是否在关系集合R中。如不在,则Q=0;如果存在,则判断Relation(wt,wc)为哪种关系,然后将该类关系下的共现实体对为同义词的概率作为同义词约束系数Q引入全局的表示学习似然函数L中,全局的表示学习似然函数L具体公式如下:
在公式(8)中,α是预设的影响因子,Q是同义词约束系数。
通过使全局的表示学习损失函数L最大化的方式对字符级词条的特征向量进行学习。由此,得出的字符级词条的特征向量结果,即字符级特征向量结果如下所示:
Z={z1,z2,z3,...zi...,zn}
其中,Z为字符级特征向量的集合,zi为集合Z中第i个字符级特征向量。
步骤S3:根据字符级特征向量获取实体知识库中每一个实体的特征向量。
由于上述得出的是字符级词条的特征向量表示,为了进一步得到各个词汇级词条的特征向量。则还需要根据字符级特征向量拼接出各个词汇级词条的特征向量,由此完成训练。具体步骤如下:
根据预设的字符级分词粒度对实体知识库中的实体进行切分,得到实体对应的字符级实体。根据字符级实体与预设的字符级特征向量拼接出实体的特征向量。
如作为一种可能的示例,“语音技术”为实体知识库中的实体,其为词汇级词条,预设分词粒度为2。按照预设的分词粒度对实体“语音技术”进行分词,得到字符级实体:“语音”、“音技”、“技术”,然后根据字符级实体查找对应的字符级训练目标词条,然后将对应的字符级训练目标词条的字符级特征向量进行拼接,如字符级实体“语音”对应字符级特征向量z3;字符级实体“音技”对应字符级特征向量z56;字符级实体“技术”对应字符级特征向量z101。将这三个字符级特征向量进行拼接即可得到实体“语音技术”的特征向量。
步骤S4:对待检测文本进行分词得到目标词条。
对待检测文本进行分词处理,从而得到分词结果为P={p1,p2…pi…pz},其中,P为所有目标词条的集合,pi为集合P中第i个目标词条,该目标词条为词汇级词条。如作为一种可能的示例,可以采用自动分词方法或者命名实体识别技术对待检测文本进行分词处理,当然也采用其他分词方法,本领域技术人员可以根据实际需求对分词方法进行灵活的选择。
可以理解的而是,这里的待检测文本可以为互联网文本,即互联网中已有的、可以生产、加工、传播的内容,尤其以文本内容为主。当然待检测文本也可以是其他类型的文本。本领域技术人员可以灵活地将本发明的文本链接嵌入方法应用于各类具有链接嵌入需求的文本中。
步骤S5:根据字符级特征向量获取目标词条的特征向量。
根据预设的字符级分词粒度对目标词条进行字符级切分,得到实体对应的字符级实体。根据字符级实体与预设的字符级特征向量拼接出实体的特征向量。目标词条的特征向量的拼接过程与步骤S3的实体的特征向量的拼接步骤大致相同,此处便不再赘述。
步骤S6:计算目标词条与实体知识库中实体之间的特征向量相似度,并且根据计算的特征向量相似度获取目标词条对应的相似实体。
在获取待检测文本的目标词条之后,需要将目标词条的特征向量(以下称为目标向量)和实体知识库中的实体的特征向量(以下称为实体向量)进行相似度的比较,然后通过比较计算出的特征向量相似度来确定与目标词条的词向量最相似的实体向量。
参照图4,图4为本发明的一种实施例中相似实体获取方法的主要步骤示意图。如图4所示,步骤S6具体包括如下步骤:
步骤S61:定义特征向量相似度函数。
定义词向量的相似度方法有很多种,如欧式距离、Jaccard距离、余弦相似度等等。作为一种可能的实施例,可以采用余弦相似度来计算两个词向量的相似度,具体公式如下:
在公式(9)中,Fi表示目标词条pi的目标向量;Dj表示实体知识库中第j个实体sj的实体向量;fk(Fi)表示目标向量Fi的第k个特征值,fk(Fj)表示实体向量Fj的第k个特征值;Similarity(Fi,Fj)表示Fi、Fi两个向量之间的余弦相似度。根据上述公式可以计算出两个向量之间的相似度,其中,相似度越高,说明两个词条的词义越接近,同义词概率越高;相似度越低,说明词条的词义相似度越低,同义词概率越低。
步骤S62:采用聚类算法对实体知识库中的实体进行预处理。
为找出与目标向量Fi距离最近的实体向量,需要分别计算实体知识库中每个实体的实体向量与目标向量Fi的特征向量相似度。由于实体知识库中实体数量庞大,倘若将每个实体一一与目标向量Fi进行计算会造成较高复杂度。因此本发明通过预先对实体知识库中的实体向量使用聚类算法来进行预处理。预处理主要是通过利用预设的聚类算法对预设实体知识库中的实体进行聚类得到多个实体集合,每个实体集合中都具有实体集合中心点,通过计算实体集合中心点与目标词条的特征向量相似度以确定与目标词条相似度最高的实体集合,然后分别计算目标词条与所获取的实体集合中每个实体之间的特征向量相似度,从而确定与目标向量相似度最高的实体向量。这样一来,可以有效地降低检索的复杂度,从而提高检索效率。
这里需要说明的是,聚类算法的种类有多种,本领域技术人员可以根据实际情况进行灵活的选择。为了便于说明,下面将以k-means层次聚类算法为例,对实体知识库中的实体进行预处理。
参照图5,图5为本发明的一种实施例中实体知识库预处理方法的主要步骤示意图。如图5所示,采用k-means层次聚类算法对实体知识库进行预处理的具体步骤包括:
步骤S621:预设实体向量集内实体向量总数为D,最大分支数为K,向量簇最大容量为L;
步骤S622:在当前向量簇下随机选择K个实体作为类簇中心:
步骤S623:将公式(9)示出的余弦相似度公式作为距离公式,使用k-means聚类算法,在当前向量簇下生成K个子向量簇,并将每个类簇中心生成节点:
步骤S624:判断子向量簇的容量是否大于L:
若子向量簇的容量大于L,将子向量簇作为当前向量簇返回执行步骤S622:
若子向量簇的容量小于等于L,执行步骤S625,将子向量簇下的实体作为叶子节点。
通过上述步骤构建层次化的k-means树,逐层聚类向量簇,使每个层次的类簇中心作为树的节点,这一过程逐渐迭代,直到向量簇中向量个数少于向量簇的最大容量,那么当前向量簇下的实体将作为叶子节点。通过这种聚类算法来对实体知识库进行预处理,可以显著降低检索复杂度。
步骤S63:计算实体知识库中的实体与目标词条的特征向量相似度。
在构建k-means树的基础上对实体知识库中的实体进行检索,具体检索方法如下:
由根节点出发,开始检索。将根节点作为当前节点,计算当前节点下的子节点与目标词条的特征向量相似度,选择特征向量相似度最大的子节点作为新的当前节点,然后判断当前节点下的子节点是否为叶子节点。若不为叶子节点,则继续计算当前节点下的子节点与目标向量的相似度,选择相似度最大的子节点作为新的当前节点,通过这种检索方式迭代查找,直到当前节点下的子节点为叶子节点时,则将当前节点下的所有叶子节点均加入待匹配队列,对待匹配队列中的各叶子节点,遍历计算各叶子节点与目标词条的特征向量相似度,选择相似度最高的实体向量。
步骤S64:定义相似度阈值,进行模糊匹配判断。
将特征向量相似度与相似度阈值进行比较,并根据比较结果判断实体知识库中是否存在目标词条的相似实体。
模糊匹配判别式具体定义如下:
其中t为预先设定的阈值参数。
当特征向量相似度大于等于阈值t时,E为1。此时认为两个向量Fi与Fj实现了模糊匹配,也就代表目标词条pi在实体知识库中具有相似实体,该相似实体就是特征向量Fj对应的实体sj。
当特征向量相似度小于阈值t时,E为0,此时说明Fi与Fj未实现匹配,则说明目标词条pi在实体知识库中并没有相似实体。
S7:将目标词条替换成包含目标词条与链接信息的文本。
相似实体对应有链接信息,通过将目标词条替换成包含目标词条与链接信息的文本以实现链接嵌入。作为一种具体的示例,可以将目标词条替换成目标词条文本与带有链接信息的html标签,以完成链接嵌入。
根据得出的相似实体,判断目标词条所属的类别,每种类别都预先定义有各类规则。当用户点击实体对应的链接时,将会根据事先定义的各类规则,执行各类行为。示例性地,当目标词条对应的相似实体所属类别为领域类别时,点击链接时执行的行为为:跳转至领域百科页面;当目标词条对应的相似实体所属类别为公司时,点击链接时执行的行为为:跳转至公司主页;当目标词条对应的相似实体所属类别为个人时,点击链接时执行的行为为:跳转至个人主页。
基于上述文本链接嵌入方法的实施例,本发明还提供了一种控制装置,该控制装置可以包括处理器和存储设备。具体地,存储设备可以适于存储多条程序并且这些程序适于由处理器加载以执行上述方法实施例所述的文本链接嵌入方法,本领域技术人员可以根据实际情况对控制装置的具体形式进行灵活的设定,如控制装置可以为计算机。
综上所述,本发明的文本链接嵌入方法是利用事先构建的知识图谱,通过特征向量学习、特征向量相似性计算、模糊匹配等过程,在预设的实体知识库中自动识别出与互联网文本的目标词条对应的相似实体,然后将相似实体的对应的链接信息嵌入目标文本中以完成超链接嵌入,实现文本-实体关联,进而通过这一关联关系,以链接为载体,为用户提供各类针对性操作,提升用户体验。本发明的文本链接嵌入方法解决了现有技术中通过关键词匹配策略进行链接嵌入的方法存在的实体漏检情况,能够有效提高链接嵌入的有效性与准确性,可以快速方便地完成超链接替换需求,提高用户体验。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种文本链接嵌入方法,其特征在于,所述方法包括:
对待检测文本进行分词得到目标词条,对所述目标词条进行字符级切分,得到所述目标词条对应的字符级目标词条;
根据所述字符级目标词条与预设的字符级特征向量进行向量拼接得出所述目标词条的特征向量;
计算所述目标词条与预设实体知识库中实体之间的特征向量相似度,并且根据所述特征向量相似度获取所述目标词条对应的相似实体;
将所述相似实体对应的实体链接信息嵌入对应的目标词条;
其中,所述实体知识库是基于知识图谱结构构建的知识库。
2.根据权利要求1所述的文本链接嵌入方法,其特征在于,在“根据所述字符级目标词条与预设的字符级特征向量进行向量拼接得出所述目标词条的特征向量”的步骤之前,所述方法还包括:
对预设的文本训练集进行分词得到训练目标词条,根据预设的字符级分词粒度对所述训练目标词条进行切分,得到字符级训练目标词条;
利用机器学习算法获取所述字符级训练目标词条的字符级特征向量。
3.根据权利要求2所述的文本链接嵌入方法,其特征在于,在“计算所述目标词条与预设实体知识库中实体之间的特征向量相似度,并且根据所述特征向量相似度获取所述目标词条对应的相似实体”的步骤之前,所述方法还包括:
根据预设的字符级分词粒度对所述实体知识库中的实体进行切分,得到所述实体对应的字符级实体;
根据所述字符级实体与预设的字符级特征向量拼接出所述实体的特征向量。
4.根据权利要求2所述的文本链接嵌入方法,其特征在于,“利用机器学习算法获取所述字符级训练目标词条的字符级特征向量”的步骤具体包括:
按照下式所示的目标函数L并且利用所述机器学习算法获取所述训练目标词条的字符级向量:
其中,所述T是所述文本训练集中训练目标词条的总数,所述Ux是所述训练文本对应的训练目标词条的集合,所述wt是集合Ux中第t个训练目标词条,所述Ct是wt的上下文的训练目标词条的集合,wc是集合Ct中的第c个训练目标词条;所述wv是集合Ux中的第v个词条,所述α是预设的影响因子,所述Q是预设的同义词约束系数;
所述Gt是根据所述字符级分词粒度对wt进行分词后得到的字符级目标词条的集合;gi是集合Gt中第i个字符级词条;是gi的字符级特征向量;是利用集合Gt中每个字符级训练目标词条拼接得到的训练目标词条wt的特征向量;fc是wc的特征向量,fv为wv的特征向量。
5.根据权利要求4所述的文本链接嵌入方法,其特征在于,
所述同义词约束系数Q如下式所示:
其中,所述R是预设的共现实体对的关系的集合,R包括多个共现实体对的关系;所述Relation(wt,wc)表示wt与wc这两个实体对应的关系;所述y表示Relation(Wt,Wc)关系中两个实体是同义词的概率。
6.根据权利要求1至5中任一项所述的文本链接嵌入方法,其特征在于,“计算所述目标词条与预设实体知识库中实体之间的特征向量相似度,并且根据所述特征向量相似度获取所述目标词条对应的相似实体”的步骤具体包括:
利用预设的聚类算法对所述预设实体知识库中的实体进行聚类得到多个实体集合;
获取与所述目标词条相似度最高的实体集合;
分别计算所述目标词条与所获取的实体集合中每个实体之间的特征向量相似度。
7.根据权利要求6所述的文本链接嵌入方法,其特征在于,“分别计算所述目标词条与所获取的实体集合中每个实体之间的特征向量相似度”的步骤包括:
按照下式所示的相似度计算函数计算目标词条与实体之间的特征向量相似度:
其中,所述Similarity(Fi,Fj)表示预先获得的包含所有目标词条的集合中第i个目标词条的特征向量Fi与所述实体知识库中第j个实体的特征向量Fj之间的特征向量相似度,所述fk(Fi)是所述特征向量Fi中的第k个特征值,所述fk(Fj)是所述特征向量Fj中的第k个特征值,所述m是特征向量Fi与特征向量Fj中特征值的总数。
8.根据权利要求1至5中任一项所述的文本链接嵌入方法,其特征在于,“根据所述特征向量相似度获取所述目标词条对应的相似实体”的步骤包括:
判断特征向量相似度最大值是否大于等于预设的相似度阈值:
若是,则将所述特性向量相似度最大值对应的实体作为当前目标词条的相似实体。
9.根据权利要求1所述的文本链接嵌入方法,其特征在于,“将所述相似实体对应的实体链接信息嵌入对应的目标词条”的步骤具体包括:
获取所述相似实体对应的链接信息;
将所述目标词条替换成包含所述目标词条与链接信息的文本。
10.一种控制装置,包括处理器和存储设备,所述存储设备适于存储多条程序,其特征在于,所述程序适于由所述处理器加载以执行权利要求1-9中任一项所述的文本链接嵌入方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810956003.0A CN109408743B (zh) | 2018-08-21 | 2018-08-21 | 文本链接嵌入方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810956003.0A CN109408743B (zh) | 2018-08-21 | 2018-08-21 | 文本链接嵌入方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109408743A true CN109408743A (zh) | 2019-03-01 |
CN109408743B CN109408743B (zh) | 2020-11-17 |
Family
ID=65463648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810956003.0A Active CN109408743B (zh) | 2018-08-21 | 2018-08-21 | 文本链接嵌入方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109408743B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851620A (zh) * | 2019-10-29 | 2020-02-28 | 天津大学 | 一种基于文本嵌入和结构嵌入联合的知识表示方法 |
CN111144115A (zh) * | 2019-12-23 | 2020-05-12 | 北京百度网讯科技有限公司 | 预训练语言模型获取方法、装置、电子设备和存储介质 |
CN111415331A (zh) * | 2020-03-03 | 2020-07-14 | 北京深睿博联科技有限责任公司 | 一种正位胸片中基于类别关系的异常检测方法及系统 |
CN111666479A (zh) * | 2019-03-06 | 2020-09-15 | 富士通株式会社 | 搜索网页的方法和计算机可读存储介质 |
CN111986765A (zh) * | 2020-09-03 | 2020-11-24 | 平安国际智慧城市科技股份有限公司 | 电子病例实体标记方法、装置、计算机设备及存储介质 |
CN112052311A (zh) * | 2019-05-20 | 2020-12-08 | 天津科技大学 | 一种基于词向量技术和知识图谱检索的短文本问答方法及装置 |
CN112966117A (zh) * | 2020-12-28 | 2021-06-15 | 成都数之联科技有限公司 | 实体链接方法 |
CN114220054A (zh) * | 2021-12-15 | 2022-03-22 | 北京中科智易科技有限公司 | 基于装备总线数据分析装备战术动作并同步展示的方法 |
CN115203429A (zh) * | 2022-06-27 | 2022-10-18 | 南京审计大学 | 一种用于构建审计领域本体框架的知识图谱自动扩充方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468791A (zh) * | 2016-01-05 | 2016-04-06 | 北京信息科技大学 | 一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法 |
CN106295796A (zh) * | 2016-07-22 | 2017-01-04 | 浙江大学 | 基于深度学习的实体链接方法 |
CN106569999A (zh) * | 2016-11-09 | 2017-04-19 | 武汉泰迪智慧科技有限公司 | 多粒度短文本语义相似度比较方法及系统 |
US20170147676A1 (en) * | 2015-11-24 | 2017-05-25 | Adobe Systems Incorporated | Segmenting topical discussion themes from user-generated posts |
CN107766585A (zh) * | 2017-12-07 | 2018-03-06 | 中国科学院电子学研究所苏州研究院 | 一种面向社交网络的特定事件抽取方法 |
-
2018
- 2018-08-21 CN CN201810956003.0A patent/CN109408743B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170147676A1 (en) * | 2015-11-24 | 2017-05-25 | Adobe Systems Incorporated | Segmenting topical discussion themes from user-generated posts |
CN105468791A (zh) * | 2016-01-05 | 2016-04-06 | 北京信息科技大学 | 一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法 |
CN106295796A (zh) * | 2016-07-22 | 2017-01-04 | 浙江大学 | 基于深度学习的实体链接方法 |
CN106569999A (zh) * | 2016-11-09 | 2017-04-19 | 武汉泰迪智慧科技有限公司 | 多粒度短文本语义相似度比较方法及系统 |
CN107766585A (zh) * | 2017-12-07 | 2018-03-06 | 中国科学院电子学研究所苏州研究院 | 一种面向社交网络的特定事件抽取方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666479A (zh) * | 2019-03-06 | 2020-09-15 | 富士通株式会社 | 搜索网页的方法和计算机可读存储介质 |
CN112052311A (zh) * | 2019-05-20 | 2020-12-08 | 天津科技大学 | 一种基于词向量技术和知识图谱检索的短文本问答方法及装置 |
CN110851620A (zh) * | 2019-10-29 | 2020-02-28 | 天津大学 | 一种基于文本嵌入和结构嵌入联合的知识表示方法 |
CN111144115A (zh) * | 2019-12-23 | 2020-05-12 | 北京百度网讯科技有限公司 | 预训练语言模型获取方法、装置、电子设备和存储介质 |
CN111144115B (zh) * | 2019-12-23 | 2023-10-20 | 北京百度网讯科技有限公司 | 预训练语言模型获取方法、装置、电子设备和存储介质 |
CN111415331A (zh) * | 2020-03-03 | 2020-07-14 | 北京深睿博联科技有限责任公司 | 一种正位胸片中基于类别关系的异常检测方法及系统 |
CN111415331B (zh) * | 2020-03-03 | 2023-05-23 | 北京深睿博联科技有限责任公司 | 一种正位胸片中基于类别关系的异常检测方法及系统 |
CN111986765A (zh) * | 2020-09-03 | 2020-11-24 | 平安国际智慧城市科技股份有限公司 | 电子病例实体标记方法、装置、计算机设备及存储介质 |
CN111986765B (zh) * | 2020-09-03 | 2023-11-21 | 深圳平安智慧医健科技有限公司 | 电子病例实体标记方法、装置、计算机设备及存储介质 |
CN112966117A (zh) * | 2020-12-28 | 2021-06-15 | 成都数之联科技有限公司 | 实体链接方法 |
CN114220054A (zh) * | 2021-12-15 | 2022-03-22 | 北京中科智易科技有限公司 | 基于装备总线数据分析装备战术动作并同步展示的方法 |
CN115203429A (zh) * | 2022-06-27 | 2022-10-18 | 南京审计大学 | 一种用于构建审计领域本体框架的知识图谱自动扩充方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109408743B (zh) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109408743A (zh) | 文本链接嵌入方法 | |
CN106598937B (zh) | 用于文本的语种识别方法、装置和电子设备 | |
CN104699730B (zh) | 用于识别候选答案之间的关系的方法和系统 | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
US9984066B2 (en) | Method and system of extracting patent features for comparison and to determine similarities, novelty and obviousness | |
CN110347701B (zh) | 一种面向实体检索查询的目标类型标识方法 | |
CN106796600A (zh) | 相关项目的计算机实现的标识 | |
KR20210151017A (ko) | 검색 모델의 훈련 방법, 목표 대상의 검색 방법 및 그 장치 | |
CN110222250B (zh) | 一种面向微博的突发事件触发词识别方法 | |
CN115809345A (zh) | 一种基于知识图谱的多源数据差异溯源检索方法 | |
CN109345007A (zh) | 一种基于XGBoost特征选择的有利储层发育区预测方法 | |
CN104699817B (zh) | 一种基于改进谱聚类的搜索引擎排序方法与系统 | |
WO2021112984A1 (en) | Feature and context based search result generation | |
CN116628339B (zh) | 一种基于人工智能的教育资源推荐方法及系统 | |
CN114265932A (zh) | 一种融入深度语义关系分类的事件脉络生成方法及系统 | |
CN112613321A (zh) | 一种抽取文本中实体属性信息的方法及系统 | |
Thushara et al. | A model for auto-tagging of research papers based on keyphrase extraction methods | |
CN110781297B (zh) | 基于层次判别树的多标签科研论文的分类方法 | |
Zhao et al. | Fuzzy sentiment membership determining for sentiment classification | |
CN112489689B (zh) | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 | |
CN116737967B (zh) | 一种基于自然语言的知识图谱构建和完善系统及方法 | |
CN105975480B (zh) | 一种指令识别方法及系统 | |
CN106991171A (zh) | 基于智慧校园信息服务平台的话题发现方法 | |
CN107562774A (zh) | 小语种词嵌入模型的生成方法、系统及问答方法和系统 | |
CN109325099A (zh) | 一种自动检索的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |