CN113919347A - 一种文本数据的内链词提取匹配方法及装置 - Google Patents
一种文本数据的内链词提取匹配方法及装置 Download PDFInfo
- Publication number
- CN113919347A CN113919347A CN202111519106.9A CN202111519106A CN113919347A CN 113919347 A CN113919347 A CN 113919347A CN 202111519106 A CN202111519106 A CN 202111519106A CN 113919347 A CN113919347 A CN 113919347A
- Authority
- CN
- China
- Prior art keywords
- words
- internal
- word
- internal link
- chain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9558—Details of hyperlinks; Management of linked annotations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Abstract
本发明公开了一种文本数据的内链词提取匹配方法及装置,涉及自然语言处理技术和数据处理技术领域,首先对目标文本中的内链词进行提取分配处理,得到正式内链词、预备内链词、无意内链词以及候补内链词;其次对上述内链词分别进行特征类型词标注,以得到目标特征词序列;然后基于目标特征词序列,计算每个候补内链词的权重系数值,并根据权重系数值,更改每个候补内链词;接着计算每个标记预备内链词的用户行为权重系数,并根据用户行为权重系数,更改每个标记预备内链词,确定最终的目标文本中的正式内链词和无意内链词,达到提高提取精准度和提高匹配准确度的目的。
Description
技术领域
本发明涉及属于计算机技术领域,尤其涉及自然语言处理技术和数据处理技术领域,具体涉及一种文本数据的内链词提取匹配方法及装置。
背景技术
在互联网信息爆炸的时代,用户可阅读信息的数量会越来越多,也会越来越便捷。但随着互联网信息的不断增多,如何挖掘用户的信息需求,更便捷地提供有价值信息,是产品应用需要思考的问题。在阅读网页文本的过程中,可以通过点击内链词直接跳转到该内链词指向的另一个网页。显然,通过内链指向另一个网页链接的方式,是一种直接有效构建内链体系的方式。
目前不少应用也正在逐步构建内链体系,在构建的过程中,主要通过与已有数据库中的候选条目标签进行特征比对,相似度计算,进而提取出文本中的内链词及对应。但是通过这种方式,对于内链词的提取精准度来说,是非常依赖候选条目的数量和涵盖范围,且无法持续更新补充,对于相似语义词语的处理也无法通过用户行为进行学习提升,进而提炼匹配的准确度也无法保证。
发明内容
本发明的目的是提供一种文本数据的内链词提取匹配方法及装置,以达到提高提取精准度和提高匹配准确度的目的。
为实现上述目的,本发明提供了如下方案:
一种文本数据的内链词提取匹配方法,包括:
对目标文本中的内链词进行提取分配处理,以得到正式内链词、预备内链词、无意内链词以及候补内链词;
对所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词分别进行特征类型词标注,以得到目标特征词序列;所述目标特征词序列包括所述正式内链词的特征词序列、所述预备内链词的特征词序列、所述无意内链词的特征词序列以及所述候补内链词的特征词序列;
基于所述目标特征词序列,计算每个所述候补内链词的权重系数值,并根据所述候补内链词的权重系数值,更改每个所述候补内链词;更改后的候补内链词为正式内链词、预备内链词或者无意内链词;
计算每个标记预备内链词的用户行为权重系数,并根据所述标记预备内链词的用户行为权重系数,更改每个所述标记预备内链词;更改后的标记预备内链词为正式内链词或者无意内链词;所述标记预备内链词为对目标文本中的内链词进行提取分配处理后得到的预备内链词或者更改所述候补内链词后所确定的预备内链词。
可选的,所述对目标文本中的内链词进行提取分配处理,以得到正式内链词、预备内链词、无意内链词以及候补内链词,具体包括:
从目标文本中提取所有目标内链词;所述目标内链词为存在语义的内链词;
将所有所述目标内链词分别投放到正式池、预备池和无意池中,以进行匹配处理;其中,与所述正式池中的内链词完全匹配的目标内链词为正式内链词,与所述预备池中的内链词完全匹配的目标内链词为预备内链词,与所述无意池中的内链词完全匹配的目标内链词为无意内链词,剩余的目标内链词为候补内链词;所述剩余的目标内链词为在所有所述目标内链词中,除了所述正式内链词、所述预备内链词和所述无意内链词之外的目标内链词。
可选的,所述将所有所述目标内链词分别投放到正式池、预备池和无意池中,以进行匹配处理,具体包括:
构建内链词的正式池、预备池和无意池;其中,所述正式池为使用中的内链词集合,所述正式池中的内链词是通过权重计算得出的优质内链词;所述预备池为新增内链词的临时中转词集合;所述无意池为被淘汰的内链词集合,所述无意池中的内链词是通过权重计算出的低质内链词;
将所有所述目标内链词分别投放到所述正式池、所述预备池和所述无意池中,以进行匹配处理。
可选的,所述对所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词分别进行特征类型词标注,以得到目标特征词序列,具体包括:
将所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词投放到字典池内,以对所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词分别进行特征类型词标注,进而得到所述正式内链词的特征词序列、所述预备内链词的特征词序列、所述无意内链词的特征词序列以及所述候补内链词的特征词序列;所述字典池为存储有多个特征类型词的数据集合;所述字典池中的特征类型词分为行业特征词、领域特征词和属性特征词。
可选的,所述基于所述目标特征词序列,计算每个所述候补内链词的权重系数值,具体包括:
按照最小特征词逐级比对原则,将所述正式内链词的特征词序列、所述预备内链词的特征词序列、所述无意内链词的特征词序列分别与所述候补内链词的特征词序列进行对比,以得到每个所述候补内链词的正式内链词匹配结果、预备内链词匹配结果和无意内链词匹配结果;所述正式内链词匹配结果和所述预备内链词匹配结果为增益值,所述无意内链词匹配结果为负面值;所述最小特征词逐级比对原则为按照行业特征词、领域特征词和属性特征词的先后顺序依次进行比对的原则;
确定所述正式池中与所述候补内链词的特征词序列匹配的内链词数量X、所述预备池中与所述候补内链词的特征词序列匹配的内链词数量Y和所述无意池中与候补内链词的特征词序列匹配的内链词数量Z;
基于所述正式池中与所述候补内链词的特征词序列匹配的内链词数量X、所述预备池中与所述候补内链词的特征词序列匹配的内链词数量Y和所述无意池中与候补内链词的特征词序列匹配的内链词数量Z,计算每个所述候补内链词的的正式内链词匹配系数加权值、预备内链词匹配系数加权值和无意内链词匹配系数加权值;
根据所述候补内链词的正式内链词匹配结果、预备内链词匹配结果、无意内链词匹配结果、正式内链词匹配系数加权值、预备内链词匹配系数加权值和无意内链词匹配系数加权值,计算每个所述候补内链词的权重系数值。
可选的,所述根据所述候补内链词的权重系数值,更改每个所述候补内链词,具体包括:
依次判断每个所述候补内链词的权重系数值是否大于或者等于第一阈值,得到第一判断结果;
若所述第一判断结果表示是,则将权重系数值大于或者等于所述第一阈值的候补内链词更改为正式内链词;
若所述第一判断结果表示否,则判断标定候补内链词的权重系数值是否大于或者等于第二阈值,得到第二判断结果;所述标定候补内链词为权重系数值小于所述第一阈值的候补内链词;
若所述第二判断结果表示是,则将权重系数值大于或者等于所述第二阈值的候补内链词更改为预备内链词;
若所述第二判断结果表示否,则将权重系数值小于所述第二阈值的候补内链词更改为无意内链词;
其中,所述第一阈值大于所述第二阈值。
可选的,所述计算每个标记预备内链词的用户行为权重系数,具体包括:
对所述标记预备内链词进行用户行为分析,确定每个所述标记预备内链词的曝光系数、点击系数和深度系数;
对所述标记正式内链词进行用户行为分析,确定每个所述标记预备内链词的曝光系数加权值、点击系数加权值和深度系数加权值;所述标记正式内链词为对目标文本中的内链词进行提取分配处理后得到的正式内链词或者更改所述候补内链词后所确定的正式内链词;
根据所述标记预备内链词的曝光系数、点击系数、深度系数、曝光系数加权值、点击系数加权值和深度系数加权值,计算每个标记预备内链词的用户行为权重系数。
可选的,所述根据所述标记预备内链词的用户行为权重系数,更改每个所述标记预备内链词,具体包括:
依次判断每个所述标记预备内链词的用户行为权重系数是否大于或者等于第三阈值;
若是,则将所述标记预备内链词更改为正式内链词;
若否,则将所述标记预备内链词更改为无意内链词。
一种文本数据的内链词提取匹配装置,包括:
提取匹配模块,用于对目标文本中的内链词进行提取分配处理,以得到正式内链词、预备内链词、无意内链词以及候补内链词;
目标特征词序列确定模块,用于对所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词分别进行特征类型词标注,以得到目标特征词序列;所述目标特征词序列包括所述正式内链词的特征词序列、所述预备内链词的特征词序列、所述无意内链词的特征词序列以及所述候补内链词的特征词序列;
第一更改模块,用于基于所述目标特征词序列,计算每个所述候补内链词的权重系数值,并根据所述候补内链词的权重系数值,更改每个所述候补内链词;更改后的候补内链词为正式内链词、预备内链词或者无意内链词;
第二更改模块,用于计算每个标记预备内链词的用户行为权重系数,并根据所述标记预备内链词的用户行为权重系数,更改每个所述标记预备内链词;更改后的标记预备内链词为正式内链词或者无意内链词;所述标记预备内链词为对目标文本中的内链词进行提取分配处理后得到的预备内链词或者更改所述候补内链词后所确定的预备内链词。
可选的,所述提取匹配模块,具体包括:
提取单元,用于从目标文本中提取所有目标内链词;所述目标内链词为存在语义的内链词;
匹配单元,用于将所有所述目标内链词分别投放到正式池、预备池和无意池中,以进行匹配处理;其中,与所述正式池中的内链词完全匹配的目标内链词为正式内链词,与所述预备池中的内链词完全匹配的目标内链词为预备内链词,与所述无意池中的内链词完全匹配的目标内链词为无意内链词,剩余的目标内链词为候补内链词;所述剩余的目标内链词为在所有所述目标内链词中,除了所述正式内链词、所述预备内链词和所述无意内链词之外的目标内链词。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种文本数据的内链词提取匹配方法及装置,首先对目标文本中的内链词进行提取分配处理,以得到正式内链词、预备内链词、无意内链词以及候补内链词;其次对所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词分别进行特征类型词标注,以得到目标特征词序列;然后基于所述目标特征词序列,计算每个所述候补内链词的权重系数值,并根据所述候补内链词的权重系数值,更改每个所述候补内链词;接着计算每个标记预备内链词的用户行为权重系数,并根据所述标记预备内链词的用户行为权重系数,更改每个所述标记预备内链词;最后,根据更改后的候补内链词、更改后的标记预备内链词、以及提取分配处理后确定的正式内链词和无意内链词,确定最终的目标文本中的正式内链词和无意内链词,达到提高提取精准度和提高匹配准确度的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一所述的一种文本数据的内链词提取匹配方法的流程示意图;
图2为本发明实施例二所述的一种文本数据的内链词提取匹配方法的流程示意图;
图3为本发明实施例三所述的一种文本数据的内链词提取匹配方法的流程示意图;
图4为本发明一种文本数据的内链词提取匹配装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
参见图1,本实施例提供了一种文本数据的内链词提取匹配方法,包括以下步骤。
步骤101:对目标文本中的内链词进行提取;具体包括:
首先从目标文本中提取所有目标内链词;所述目标内链词为存在语义的内链词。其次,将所有所述目标内链词分别投放到正式池、预备池和无意池中以进行匹配处理;其中,当目标内链词与正式池中的内链词完全匹配时,将该目标内链词划定为正式内链词;当目标内链词与预备池中的内链词完全匹配时,将该目标内链词划定为预备内链词;当目标内链词与无意池中的内链词完全匹配时,将该目标内链词划定为无意内链词,剩余的目标内链词则划定为候补内链词。
例如提取的内链词包含:工程机械、工业互联网、基建、能源、排放、微挖。其中“工程机械”和“基建”存在于正式池中,则划定为正式内链词,“工业互联网”存在于预备池中,则划定为预备内链词,“能源”和“排放”存在于无意池中,则划定为无意内链词,“微挖”不存在于正式池、预备池和无意池,则划定为候补内链词。
上述内容中提到的正式池是指使用中的内链词集合,正式池中的内链词是通过权重计算得出的优质内链词。预备池是指新增内链词的临时中转词集合,定时对预备池中的内链词做用户行为分析,决定进入正式池还是无意池。无意池是指被淘汰的内链词集合,无意池中的内链词是通过权重计算出的低质内链词。
步骤102:参照字典池,对提取的内链词进行特征标注。
此步骤主要通过字典池计算评估内链词的权重、标签及内联系的语义关系。字典池指存储有多个特征类型词的数据集合,为分析上述内链词提供数据基础。
为提高对内链词的精准匹配,首先需要对候补内链词、正式内链词、预备内链词、无意内链词进行特征分析,将上述内链词投放到字典池中标注特征类型,字典池中的特征类型词分为行业特征词、领域特征词、属性特征词,词义由大到小进行逐级匹配,为每个内链词匹配出1个特征词序列,特征词序列按照最小级匹配原则进行持续的匹配。
以步骤101中的候补内链词“微挖”举例,在行业特征词中匹配到“制造”,在领域特征词中匹配到“工程”,属性特征词中匹配到“工程机械”、“挖掘机”和“小挖”。
步骤103:计算出候补内链词的权重系数值,以此判定候补内链词进入到正式池、预备池或者无意池。
将候补内链词的特征词序列与正式内链词、预备内链词的特征词序列进行比对,需要说明的是在比对过程中,按照最小特征词原则逐级比对,在比对到最小特征词前,若出现不匹配的情况,则停止对该特征词序列的比对,计算权重系数时也只计算该特征词序列在本级之前的。由于属性特征词存在超过1个的情况,在比对该级别特征词时可以标注多个成功特征词,所有标注成功的属性特征词均将参与权重系数的计算。其中,正式内链词、预备内链词的匹配结果将作为增益值进行计算。
例如候补内链词“微挖”,它的特征词序列是{“制造”,“工程”,“工程机械”,“挖掘机”,“小挖”},正式内链词“工程机械”,它的特征词序列是{“工程机械”},另外一个正式内链词“基建”,它的特征词序列是{“建筑”,“工程”,“工程机械”},“微挖”的特征词序列与“工程机械”完全吻合,与“基建”两项吻合。
将候补内链词的特征词序列与无意内链词的特征词序列进行比对,比对过程与正式内链词、预备内链词比对过程一致;其中,无意内链词的匹配结果将作为负面值进行计算。
计算内链词匹配系数的加权值,获取正式池中与候补内链词的特征词序列匹配的内链词数量X,获取预备池中与候补内链词的特征词序列匹配的内链词数量Y,获取无意池中与候补内链词的特征词序列匹配的内链词数量Z。正式内链词匹配系数加权值,预备内链词匹配系数加权值,无意内链词匹配系数加权值。
内链词权重系数WC即内链词的匹配系数,数值越大代表内链词匹配度越高,根据正式内链词的匹配结果F、预备内链词的匹配结果P和无意内链词的匹配结果N进行权重计算。
将计算得到内链词权重系数与阈值A、阈值B进行比较,若高于阈值A时,则说明该候补内链词匹配成功,将该候补内链词置入正式池中,将作为正式内链词以用于后续内链词的提取对比中;若低于阈值A且高于阈值B时,则说明该候补内链词仅能作为预备池中的内链词,以用于后续内链词的匹配中,并将该候补内链词置入预备池中。若低于阈值B时,则说明该候补内链词为无意内链词,转入无意池中,且不再进行匹配。
步骤104:计算预备池中内链词的用户行为权重系数,以此判定预备池中的内链词进入到正式池或者无意池。
对预备池中的内链词做用户行为分析;用户行为权重主要由三部分组成,分别为:曝光系数、点击系数和深度系数。
用户访问的曝光系数EC,即内链词每分钟的曝光次数,数值越大代表内链词价值越大,根据用户浏览过程中该内链词在文本中用户触达到的次数EN和曝光总时长(min)ET进行计算,即EC =EN/ET。
用户对于内链词的点击系数CC,即内链词曝光转化成有效点击的次数,数值越大代表转化率越低,内链词价值越低,根据用户浏览过程中的触达次数EN及点击次数CN进行计算,即CC=EN/CN。
用户访问的深度系数VC(min),即内链词每次访问的时长,数值越大代表用户停留时间越长,内链词价值越大,根据用户访问次数VN及访问总时长(min)VT进行计算,即VC=VT/VN。
根据这三项指标,计算出内链词的用户行为权重值。
计算公式为W=EC×O-CC×I+VC×J;
曝光系数加权值O,点击系数加权值I和深度系数加权值J是通过分析正式池中大量内链词的用户行为得出的加权平衡。
通过计算公式,得到内链词的用户行为权重值W,当其用户行为权重值超过阈值M时,将预备池中的内链词转为正式池中的内链词。当其用户行为权重值无法到达阈值M后,将其调整至无意池中。
实施例二
参见图2,本实施例提供的一种文本数据的内链词提取匹配方法,包括:
步骤201:对目标文本中的内链词进行提取分配处理,以得到正式内链词、预备内链词、无意内链词以及候补内链词。
步骤202:对所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词分别进行特征类型词标注,以得到目标特征词序列;所述目标特征词序列包括所述正式内链词的特征词序列、所述预备内链词的特征词序列、所述无意内链词的特征词序列以及所述候补内链词的特征词序列。
步骤203:基于所述目标特征词序列,计算每个所述候补内链词的权重系数值,并根据所述候补内链词的权重系数值,更改每个所述候补内链词;更改后的候补内链词为正式内链词、预备内链词或者无意内链词。
步骤204:计算每个标记预备内链词的用户行为权重系数,并根据所述标记预备内链词的用户行为权重系数,更改每个所述标记预备内链词;更改后的标记预备内链词为正式内链词或者无意内链词;所述标记预备内链词为对目标文本中的内链词进行提取分配处理后得到的预备内链词或者更改所述候补内链词后所确定的预备内链词。
其中,步骤201具体包括:
从目标文本中提取所有目标内链词;所述目标内链词为存在语义的内链词;将所有所述目标内链词分别投放到正式池、预备池和无意池中,以进行匹配处理;其中,与所述正式池中的内链词完全匹配的目标内链词为正式内链词,与所述预备池中的内链词完全匹配的目标内链词为预备内链词,与所述无意池中的内链词完全匹配的目标内链词为无意内链词,剩余的目标内链词为候补内链词;所述剩余的目标内链词为在所有所述目标内链词中,除了所述正式内链词、所述预备内链词和所述无意内链词之外的目标内链词。
进一步地,所述将所有所述目标内链词分别投放到正式池、预备池和无意池中,以进行匹配处理,具体包括:
构建内链词的正式池、预备池和无意池;其中,所述正式池为使用中的内链词集合,所述正式池中的内链词是通过权重计算得出的优质内链词;所述预备池为新增内链词的临时中转词集合;所述无意池为被淘汰的内链词集合,所述无意池中的内链词是通过权重计算出的低质内链词;将所有所述目标内链词分别投放到所述正式池、所述预备池和所述无意池中,以进行匹配处理。
步骤202具体包括:
将所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词投放到字典池内,以对所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词分别进行特征类型词标注,进而得到所述正式内链词的特征词序列、所述预备内链词的特征词序列、所述无意内链词的特征词序列以及所述候补内链词的特征词序列;所述字典池为存储有多个特征类型词的数据集合;所述字典池中的特征类型词分为行业特征词、领域特征词和属性特征词。
在步骤203中,所述基于所述目标特征词序列,计算每个所述候补内链词的权重系数值,具体包括:
按照最小特征词逐级比对原则,将所述正式内链词的特征词序列、所述预备内链词的特征词序列、所述无意内链词的特征词序列分别与所述候补内链词的特征词序列进行对比,以得到每个所述候补内链词的正式内链词匹配结果、预备内链词匹配结果和无意内链词匹配结果;所述正式内链词匹配结果和所述预备内链词匹配结果为增益值,所述无意内链词匹配结果为负面值;所述最小特征词逐级比对原则为按照行业特征词、领域特征词和属性特征词的先后顺序依次进行比对的原则。
确定所述正式池中与所述候补内链词的特征词序列匹配的内链词数量X、所述预备池中与所述候补内链词的特征词序列匹配的内链词数量Y和所述无意池中与候补内链词的特征词序列匹配的内链词数量Z。
基于所述正式池中与所述候补内链词的特征词序列匹配的内链词数量X、所述预备池中与所述候补内链词的特征词序列匹配的内链词数量Y和所述无意池中与候补内链词的特征词序列匹配的内链词数量Z,计算每个所述候补内链词的的正式内链词匹配系数加权值、预备内链词匹配系数加权值和无意内链词匹配系数加权值。
根据所述候补内链词的正式内链词匹配结果、预备内链词匹配结果、无意内链词匹配结果、正式内链词匹配系数加权值、预备内链词匹配系数加权值和无意内链词匹配系数加权值,计算每个所述候补内链词的权重系数值。
在步骤203中,所述根据所述候补内链词的权重系数值,更改每个所述候补内链词,具体包括:
依次判断每个所述候补内链词的权重系数值是否大于或者等于第一阈值,得到第一判断结果;若所述第一判断结果表示是,则将权重系数值大于或者等于所述第一阈值的候补内链词更改为正式内链词;若所述第一判断结果表示否,则判断标定候补内链词的权重系数值是否大于或者等于第二阈值,得到第二判断结果;所述标定候补内链词为权重系数值小于所述第一阈值的候补内链词。
若所述第二判断结果表示是,则将权重系数值大于或者等于所述第二阈值的候补内链词更改为预备内链词;若所述第二判断结果表示否,则将权重系数值小于所述第二阈值的候补内链词更改为无意内链词。
其中,所述第一阈值大于所述第二阈值。
在步骤204中,所述计算每个标记预备内链词的用户行为权重系数,具体包括:
对所述标记预备内链词进行用户行为分析,确定每个所述标记预备内链词的曝光系数、点击系数和深度系数。
对所述标记正式内链词进行用户行为分析,确定每个所述标记预备内链词的曝光系数加权值、点击系数加权值和深度系数加权值;所述标记正式内链词为对目标文本中的内链词进行提取分配处理后得到的正式内链词或者更改所述候补内链词后所确定的正式内链词。
根据所述标记预备内链词的曝光系数、点击系数、深度系数、曝光系数加权值、点击系数加权值和深度系数加权值,计算每个标记预备内链词的用户行为权重系数。
在步骤204中,所述根据所述标记预备内链词的用户行为权重系数,更改每个所述标记预备内链词,具体包括:
依次判断每个所述标记预备内链词的用户行为权重系数是否大于或者等于第三阈值;若是,则将所述标记预备内链词更改为正式内链词;若否,则将所述标记预备内链词更改为无意内链词。
实施例三
参见图3,本实施例提供的一种文本数据的内链词提取匹配方法,包括:
步骤301,从目标文本中提取多个内链词,将内链词分别投放到正式池、预备池和无意池中做匹配处理,提取出正式内链词、预备内链词和无意内链词,剩余内链词即为候补内链词。
步骤302,通过字典池对步骤301中的候补内链词、正式内链词、预备内链词、无意内链词进行特征分析,为上述内链词标注特征类型。
步骤303,将候补内链词与正式内链词、预备内链词、无意内链词做特征词序列比对,计算出候补内链词的权重系数值,并当权重系数值超过阈值A时,将其置入正式池中;当权重系数低于阈值A且高于阈值B时,将其置入预备池中;当权重系数低于阈值B,将其置入无意池中。
步骤304,对预备池中的内链词做用户行为分析,依据用户行为权重系数进一步优化识别,当用户行为权重系数满足到达阈值M后,将其调整至正式池中;当用户行为权重系数无法到达阈值M后,将其调整至无意池中。
实施例四
参见图4,本实施例提供的一种文本数据的内链词提取匹配装置,包括:
提取匹配模块401,用于对目标文本中的内链词进行提取分配处理,以得到正式内链词、预备内链词、无意内链词以及候补内链词。
目标特征词序列确定模块402,用于对所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词分别进行特征类型词标注,以得到目标特征词序列;所述目标特征词序列包括所述正式内链词的特征词序列、所述预备内链词的特征词序列、所述无意内链词的特征词序列以及所述候补内链词的特征词序列。
第一更改模块403,用于基于所述目标特征词序列,计算每个所述候补内链词的权重系数值,并根据所述候补内链词的权重系数值,更改每个所述候补内链词;更改后的候补内链词为正式内链词、预备内链词或者无意内链词。
第二更改模块404,用于计算每个标记预备内链词的用户行为权重系数,并根据所述标记预备内链词的用户行为权重系数,更改每个所述标记预备内链词;更改后的标记预备内链词为正式内链词或者无意内链词;所述标记预备内链词为对目标文本中的内链词进行提取分配处理后得到的预备内链词或者更改所述候补内链词后所确定的预备内链词。
其中,所述提取匹配模块401,具体包括:
提取单元,用于从目标文本中提取所有目标内链词;所述目标内链词为存在语义的内链词;匹配单元,用于将所有所述目标内链词分别投放到正式池、预备池和无意池中,以进行匹配处理;其中,与所述正式池中的内链词完全匹配的目标内链词为正式内链词,与所述预备池中的内链词完全匹配的目标内链词为预备内链词,与所述无意池中的内链词完全匹配的目标内链词为无意内链词,剩余的目标内链词为候补内链词;所述剩余的目标内链词为在所有所述目标内链词中,除了所述正式内链词、所述预备内链词和所述无意内链词之外的目标内链词。
与现有技术相比,本发明具有以下效果:
第一,本发明采用了一种正式池、预备池和无意池的策略,在对内链词进行筛选分析的时候更方便快捷,快速的给目标文本中的内链词进行分组。
第二,本发明通过计算候补内链词的权重系数值和预备内链词的用户行为权重系数,提高内链词库的质量,提升匹配的精准度。
第三,本发明在提取以及匹配内链词之余,可以持续扩充内链词词库,降低人工管理成本,相对人工管理的内链词词库更精准也更智能。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种文本数据的内链词提取匹配方法,其特征在于,包括:
对目标文本中的内链词进行提取分配处理,以得到正式内链词、预备内链词、无意内链词以及候补内链词;
对所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词分别进行特征类型词标注,以得到目标特征词序列;所述目标特征词序列包括所述正式内链词的特征词序列、所述预备内链词的特征词序列、所述无意内链词的特征词序列以及所述候补内链词的特征词序列;
基于所述目标特征词序列,计算每个所述候补内链词的权重系数值,并根据所述候补内链词的权重系数值,更改每个所述候补内链词;更改后的候补内链词为正式内链词、预备内链词或者无意内链词;
计算每个标记预备内链词的用户行为权重系数,并根据所述标记预备内链词的用户行为权重系数,更改每个所述标记预备内链词;更改后的标记预备内链词为正式内链词或者无意内链词;所述标记预备内链词为对目标文本中的内链词进行提取分配处理后得到的预备内链词或者更改所述候补内链词后所确定的预备内链词。
2.根据权利要求1所述的一种文本数据的内链词提取匹配方法,其特征在于,所述对目标文本中的内链词进行提取分配处理,以得到正式内链词、预备内链词、无意内链词以及候补内链词,具体包括:
从目标文本中提取所有目标内链词;所述目标内链词为存在语义的内链词;
将所有所述目标内链词分别投放到正式池、预备池和无意池中,以进行匹配处理;其中,与所述正式池中的内链词完全匹配的目标内链词为正式内链词,与所述预备池中的内链词完全匹配的目标内链词为预备内链词,与所述无意池中的内链词完全匹配的目标内链词为无意内链词,剩余的目标内链词为候补内链词;所述剩余的目标内链词为在所有所述目标内链词中,除了所述正式内链词、所述预备内链词和所述无意内链词之外的目标内链词。
3.根据权利要求2所述的一种文本数据的内链词提取匹配方法,其特征在于,所述将所有所述目标内链词分别投放到正式池、预备池和无意池中,以进行匹配处理,具体包括:
构建内链词的正式池、预备池和无意池;其中,所述正式池为使用中的内链词集合,所述正式池中的内链词是通过权重计算得出的优质内链词;所述预备池为新增内链词的临时中转词集合;所述无意池为被淘汰的内链词集合,所述无意池中的内链词是通过权重计算出的低质内链词;
将所有所述目标内链词分别投放到所述正式池、所述预备池和所述无意池中,以进行匹配处理。
4.根据权利要求1所述的一种文本数据的内链词提取匹配方法,其特征在于,所述对所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词分别进行特征类型词标注,以得到目标特征词序列,具体包括:
将所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词投放到字典池内,以对所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词分别进行特征类型词标注,进而得到所述正式内链词的特征词序列、所述预备内链词的特征词序列、所述无意内链词的特征词序列以及所述候补内链词的特征词序列;所述字典池为存储有多个特征类型词的数据集合;所述字典池中的特征类型词分为行业特征词、领域特征词和属性特征词。
5.根据权利要求2所述的一种文本数据的内链词提取匹配方法,其特征在于,所述基于所述目标特征词序列,计算每个所述候补内链词的权重系数值,具体包括:
按照最小特征词逐级比对原则,将所述正式内链词的特征词序列、所述预备内链词的特征词序列、所述无意内链词的特征词序列分别与所述候补内链词的特征词序列进行对比,以得到每个所述候补内链词的正式内链词匹配结果、预备内链词匹配结果和无意内链词匹配结果;所述正式内链词匹配结果和所述预备内链词匹配结果为增益值,所述无意内链词匹配结果为负面值;所述最小特征词逐级比对原则为按照行业特征词、领域特征词和属性特征词的先后顺序依次进行比对的原则;
确定所述正式池中与所述候补内链词的特征词序列匹配的内链词数量X、所述预备池中与所述候补内链词的特征词序列匹配的内链词数量Y和所述无意池中与候补内链词的特征词序列匹配的内链词数量Z;
基于所述正式池中与所述候补内链词的特征词序列匹配的内链词数量X、所述预备池中与所述候补内链词的特征词序列匹配的内链词数量Y和所述无意池中与候补内链词的特征词序列匹配的内链词数量Z,计算每个所述候补内链词的的正式内链词匹配系数加权值、预备内链词匹配系数加权值和无意内链词匹配系数加权值;
根据所述候补内链词的正式内链词匹配结果、预备内链词匹配结果、无意内链词匹配结果、正式内链词匹配系数加权值、预备内链词匹配系数加权值和无意内链词匹配系数加权值,计算每个所述候补内链词的权重系数值。
6.根据权利要求1所述的一种文本数据的内链词提取匹配方法,其特征在于,所述根据所述候补内链词的权重系数值,更改每个所述候补内链词,具体包括:
依次判断每个所述候补内链词的权重系数值是否大于或者等于第一阈值,得到第一判断结果;
若所述第一判断结果表示是,则将权重系数值大于或者等于所述第一阈值的候补内链词更改为正式内链词;
若所述第一判断结果表示否,则判断标定候补内链词的权重系数值是否大于或者等于第二阈值,得到第二判断结果;所述标定候补内链词为权重系数值小于所述第一阈值的候补内链词;
若所述第二判断结果表示是,则将权重系数值大于或者等于所述第二阈值的候补内链词更改为预备内链词;
若所述第二判断结果表示否,则将权重系数值小于所述第二阈值的候补内链词更改为无意内链词;
其中,所述第一阈值大于所述第二阈值。
7.根据权利要求1所述的一种文本数据的内链词提取匹配方法,其特征在于,所述计算每个标记预备内链词的用户行为权重系数,具体包括:
对所述标记预备内链词进行用户行为分析,确定每个所述标记预备内链词的曝光系数、点击系数和深度系数;
对所述标记正式内链词进行用户行为分析,确定每个所述标记预备内链词的曝光系数加权值、点击系数加权值和深度系数加权值;所述标记正式内链词为对目标文本中的内链词进行提取分配处理后得到的正式内链词或者更改所述候补内链词后所确定的正式内链词;
根据所述标记预备内链词的曝光系数、点击系数、深度系数、曝光系数加权值、点击系数加权值和深度系数加权值,计算每个标记预备内链词的用户行为权重系数。
8.根据权利要求1所述的一种文本数据的内链词提取匹配方法,其特征在于,所述根据所述标记预备内链词的用户行为权重系数,更改每个所述标记预备内链词,具体包括:
依次判断每个所述标记预备内链词的用户行为权重系数是否大于或者等于第三阈值;
若是,则将所述标记预备内链词更改为正式内链词;
若否,则将所述标记预备内链词更改为无意内链词。
9.一种文本数据的内链词提取匹配装置,其特征在于,包括:
提取匹配模块,用于对目标文本中的内链词进行提取分配处理,以得到正式内链词、预备内链词、无意内链词以及候补内链词;
目标特征词序列确定模块,用于对所述正式内链词、所述预备内链词、所述无意内链词以及所述候补内链词分别进行特征类型词标注,以得到目标特征词序列;所述目标特征词序列包括所述正式内链词的特征词序列、所述预备内链词的特征词序列、所述无意内链词的特征词序列以及所述候补内链词的特征词序列;
第一更改模块,用于基于所述目标特征词序列,计算每个所述候补内链词的权重系数值,并根据所述候补内链词的权重系数值,更改每个所述候补内链词;更改后的候补内链词为正式内链词、预备内链词或者无意内链词;
第二更改模块,用于计算每个标记预备内链词的用户行为权重系数,并根据所述标记预备内链词的用户行为权重系数,更改每个所述标记预备内链词;更改后的标记预备内链词为正式内链词或者无意内链词;所述标记预备内链词为对目标文本中的内链词进行提取分配处理后得到的预备内链词或者更改所述候补内链词后所确定的预备内链词。
10.根据权利要求9所述的一种文本数据的内链词提取匹配装置,其特征在于,所述提取匹配模块,具体包括:
提取单元,用于从目标文本中提取所有目标内链词;所述目标内链词为存在语义的内链词;
匹配单元,用于将所有所述目标内链词分别投放到正式池、预备池和无意池中,以进行匹配处理;其中,与所述正式池中的内链词完全匹配的目标内链词为正式内链词,与所述预备池中的内链词完全匹配的目标内链词为预备内链词,与所述无意池中的内链词完全匹配的目标内链词为无意内链词,剩余的目标内链词为候补内链词;所述剩余的目标内链词为在所有所述目标内链词中,除了所述正式内链词、所述预备内链词和所述无意内链词之外的目标内链词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111519106.9A CN113919347B (zh) | 2021-12-14 | 2021-12-14 | 一种文本数据的内链词提取匹配方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111519106.9A CN113919347B (zh) | 2021-12-14 | 2021-12-14 | 一种文本数据的内链词提取匹配方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113919347A true CN113919347A (zh) | 2022-01-11 |
CN113919347B CN113919347B (zh) | 2022-04-05 |
Family
ID=79249058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111519106.9A Active CN113919347B (zh) | 2021-12-14 | 2021-12-14 | 一种文本数据的内链词提取匹配方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113919347B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101000628A (zh) * | 2006-01-13 | 2007-07-18 | 国际商业机器公司 | 错误超链接检测设备及其方法 |
CN101079062A (zh) * | 2007-06-22 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种网页重要性评价方法及系统 |
CN104572612A (zh) * | 2013-10-18 | 2015-04-29 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置 |
CN105183894A (zh) * | 2015-09-29 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 过滤网站内链的方法及装置 |
CN106776937A (zh) * | 2016-12-01 | 2017-05-31 | 腾讯科技(深圳)有限公司 | 一种确定内链关键词的方法和装置 |
CN111563212A (zh) * | 2020-04-28 | 2020-08-21 | 北京字节跳动网络技术有限公司 | 一种内链添加方法及装置 |
KR20210023149A (ko) * | 2019-08-22 | 2021-03-04 | 하권목 | 데이터 연계 장치 및 방법 |
CN112989235A (zh) * | 2021-03-09 | 2021-06-18 | 北京百度网讯科技有限公司 | 基于知识库的内链构建方法、装置、设备和存储介质 |
CN113761218A (zh) * | 2021-04-27 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 一种实体链接的方法、装置、设备及存储介质 |
-
2021
- 2021-12-14 CN CN202111519106.9A patent/CN113919347B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101000628A (zh) * | 2006-01-13 | 2007-07-18 | 国际商业机器公司 | 错误超链接检测设备及其方法 |
CN101079062A (zh) * | 2007-06-22 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种网页重要性评价方法及系统 |
CN104572612A (zh) * | 2013-10-18 | 2015-04-29 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置 |
CN105183894A (zh) * | 2015-09-29 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 过滤网站内链的方法及装置 |
CN106776937A (zh) * | 2016-12-01 | 2017-05-31 | 腾讯科技(深圳)有限公司 | 一种确定内链关键词的方法和装置 |
KR20210023149A (ko) * | 2019-08-22 | 2021-03-04 | 하권목 | 데이터 연계 장치 및 방법 |
CN111563212A (zh) * | 2020-04-28 | 2020-08-21 | 北京字节跳动网络技术有限公司 | 一种内链添加方法及装置 |
CN112989235A (zh) * | 2021-03-09 | 2021-06-18 | 北京百度网讯科技有限公司 | 基于知识库的内链构建方法、装置、设备和存储介质 |
CN113761218A (zh) * | 2021-04-27 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 一种实体链接的方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
MILNE D: "Computing semantic relatedness using wikipedia link structure", 《PROCEEDINGS OF THE NEW ZEALAND COMPUTER SCIENCE RESEARCH STUEDENT CONFERENCE》 * |
刘宇航: "一种基于百度百科的中文领域本体构建方法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113919347B (zh) | 2022-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110597988B (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN112214610B (zh) | 一种基于跨度和知识增强的实体关系联合抽取方法 | |
CN101645065B (zh) | 确定需要加载的辅助词库的方法、装置及输入法系统 | |
CN109299258A (zh) | 一种舆情事件检测方法、装置及设备 | |
CN106202380B (zh) | 一种分类语料库的构建方法、系统及具有该系统的服务器 | |
CN107704512A (zh) | 基于社交数据的金融产品推荐方法、电子装置及介质 | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
CN110610193A (zh) | 标注数据的处理方法及装置 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN104881458A (zh) | 一种网页主题的标注方法和装置 | |
CN106934055B (zh) | 一种基于不充分模态信息的半监督网页自动分类方法 | |
CN108647800A (zh) | 一种基于节点嵌入的在线社交网络用户缺失属性预测方法 | |
CN110263127A (zh) | 基于用户查询词进行文本搜索方法及装置 | |
CN112580896A (zh) | 知识点预测方法、装置、设备及存储介质 | |
CN102609539B (zh) | 一种搜索方法和系统 | |
CN107797981B (zh) | 一种目标文本识别方法及装置 | |
CN106815215A (zh) | 生成标注库的方法和装置 | |
CN113111645B (zh) | 一种媒体文本相似性检测方法 | |
CN110688540A (zh) | 一种作弊账户筛选方法、装置、设备及介质 | |
WO2020000752A1 (zh) | 仿冒移动应用程序的判别方法及系统 | |
CN107783958B (zh) | 一种目标语句识别方法及装置 | |
CN113569118A (zh) | 自媒体推送方法、装置、计算机设备及存储介质 | |
CN113919347B (zh) | 一种文本数据的内链词提取匹配方法及装置 | |
CN114647739A (zh) | 实体链指方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |