CN112328736A - 一种主题词表构建方法、系统及计算机存储介质 - Google Patents

一种主题词表构建方法、系统及计算机存储介质 Download PDF

Info

Publication number
CN112328736A
CN112328736A CN202011271598.XA CN202011271598A CN112328736A CN 112328736 A CN112328736 A CN 112328736A CN 202011271598 A CN202011271598 A CN 202011271598A CN 112328736 A CN112328736 A CN 112328736A
Authority
CN
China
Prior art keywords
word
words
constructing
relation
dice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011271598.XA
Other languages
English (en)
Inventor
张凯
周建设
史金生
齐军华
马芙盟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Capital Normal University
Original Assignee
Capital Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Capital Normal University filed Critical Capital Normal University
Priority to CN202011271598.XA priority Critical patent/CN112328736A/zh
Publication of CN112328736A publication Critical patent/CN112328736A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种主题词表构建方法、系统及计算机存储介质,其将在计算机相关技术基础之上应用统计学的相关知识和本申请提出的等同关系特征加权、相关关系特征加权和等级系数计算自动识别汽车专利领域内词与词之间的等同、相关和等级关系,根据这三种词间关系自动构建一部汽车专利相关领域主题词表。相比于现有技术,无需手工构建主题语表,构建及更新速度更快,避免了不同工作人员的经历、知识不统一引起构建的标准不一的问题。

Description

一种主题词表构建方法、系统及计算机存储介质
技术领域
本申请涉及语义检索技术领域,具体而言,涉及一种主题词表构建方法、系统及计算机存储介质。
背景技术
汽车专利主题词表是汽车专利知识的一个集合,它是汽车专利数据库建设和检索的重要工具,能够有效的识别专利是否属于汽车相关领域,提高用户对汽车专利检索的效率(扩检或缩检),能够快速有效识别汽车专利可能使用的技术。
然而,目前主要采用手工构建主题语表,不仅构建速度慢,并且不同工作人员的经历、知识不统一引起构建的标准不一,最重要的是更新主题词表的速度慢,不利于应用。因此,研究自动构建汽车专利领域主题词表有重大的实践意义。
发明内容
为了解决上述手工构建主题语表速度慢、标准不一、更新慢的技术问题,本申请提供了一种主题词表构建方法、系统及计算机存储介质。
本申请的第一方面提供了一种主题词表构建方法,所述方法包括:
步骤1,对汽车领域专利文本进行预处理:首先提取各专利文本中的子句;其次,对每个子句,结合属性词本体词库,进行分词,从而构建初步主题词集;
步骤2,对所述初步主题词集进行等同关系识别、相关关系识别、等级关系识别;
步骤3,基于所述识别得出的等同关系、相关关系、等级关系,构建主题词表。
优选地,所述等同关系识别,包括:根据共现分析和字面相似度计算加权的方法来识别词间的等同关系,计算方法如下:
Sim(Ti,Tj)=α·W(Ti,Tj)+β·S(Ti,Tj)
其中,Ti、Tj为两个不相同的词,Sim(Ti,Tj)为两词间的相似度;W(Ti,Tj)为两词间的共现权重;S(Ti,Tj)为两词间的字面相似度;α、β为权重因子且α+β=1。
优选地,所述共现权重的计算方法为:
Figure BDA0002777856240000021
其中,W(T1,T2)为词T1和T2的距离,表征两词间的共现权重;T1、T2为两个不相同的词,K表示特征向量的维数;W1i表示词T1的特征向量第i维的值;W2i表示词T2的特征向量第i维的值。
优选地,所述字面相似度计算方法下:
Figure BDA0002777856240000022
其中,Ti、Tj为两个不相同的词,S(Ti,Tj)是词间的字面相似度;Lij为词Ti和Tj中相同字的个数;Li、Lj分别为词Ti和Tj的长度。
优选地,所述相关关系识别,包括:采用如下公式来识别术语之间的关联度:
Rel(Ti,Tj)=γ·W(Ti,Tj)+δ·Dice(Ti,Tj)
其中,Ti、Tj为两个不相同的词,Rel(Ti,Tj)为两词间的相关度;W(Ti,Tj)为两词间的共现权重;Dice(Ti,Tj)为两词间的Dice测试权重;γ、δ为权重因子且γ+δ=1。
优选地,所述两词间的Dice测试权重的计算方式如下:
Dice(Ti,Tj)=2F(Ti,Tj)/(F(Ti)+F(Tj))
其中,Ti、Tj为两个不相同的词,Dice(Ti,Tj)表示词Ti与词Tj的Dice测度值;F(Ti,Tj)表示词Ti与词Tj共同出现的文章总数;F(Ti)表示出现词Ti的文章总数;F(Tj)表示出现词Tj的文章总数。
优选地,所述等级关系识别,采用如下公式:
Figure BDA0002777856240000031
idf(Ti)=log(N/ni)
其中,H(Ti)为词汇的等级系数;Freq(Ti)为词汇Ti的总词频,len(Ti)表示词汇Ti的长度;idf(Ti)为词汇的逆文档频率;N表示文档总数;ni指出现词汇Ti的文档数。
本申请的第二方面提供了一种主题词表构建系统,所述系统包括:
预处理模块,用于对汽车领域专利文本进行预处理:首先提取各专利文本中的子句;其次,对每个子句,结合属性词本体词库,进行分词,从而构建初步主题词集;
词间关系识别模块,用于对所述初步主题词集进行等同关系识别、相关关系识别、等级关系识别;
主题词表构建模块,基于所述识别得出的等同关系、相关关系、等级关系,构建主题词表。
本申请的第三方面提供了一种主题词表构建设备,其特征在于,所述设备包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如前述所述的主题词表构建方法。
本申请的第四方面提供了一种存储介质,其特征在于,所述存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如前述所述的主题词表构建方法。
本发明的有益效果在于:
本申请将在计算机相关技术基础之上应用统计学的相关知识和本申请提出的等同关系特征加权、相关关系特征加权和等级系数计算自动识别汽车专利领域内词与词之间的等同、相关和等级关系,根据这三种词间关系自动构建一部汽车专利相关领域主题词表。相比于现有技术,无需手工构建主题语表,构建及更新速度更快,避免了不同工作人员的经历、知识不统一引起构建的标准不一的问题。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请实施例公开的一种主题词表构建方法的流程示意图;
图2是本申请实施例公开的一种主题词表构建系统的结构示意图;
图3是本申请实施例公开的一种主题词表构建设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
实施例一
目前,对于叙词表的研究主要一方面集中对于叙词表的转化方面主要将叙词表转化成本体,另一方面主要是对现有主题词表的全面升级和维护方面。然而在自动构建主题词表的方面,主要方法包括“基于WordNet进行转化”、“概念空间”、“整合现有词表”。这些自动构建方法要么脱离了具体的使用环境,针对性不强,对于领域内出现的新术语无法更新;要么只识别了词与词之间的相关关系,其它词间关系没有识别。针对上述技术问题,本申请提出了如下的主题词表构建方法、系统、设备及存储介质。
请参阅图1,图1是本申请实施例公开的一种主题词表构建方法的流程示意图。如图1所示,本申请实施例的主题词表构建方法,所述方法包括:
步骤1,对汽车领域专利文本进行预处理:首先提取各专利文本中的子句;其次,对每个子句,结合属性词本体词库,进行分词,从而构建初步主题词集;
步骤2,对所述初步主题词集进行等同关系识别、相关关系识别、等级关系识别;
步骤3,基于所述识别得出的等同关系、相关关系、等级关系,构建主题词表。
在本申请实施例中,本申请将在计算机相关技术基础之上应用统计学的相关知识和本申请提出的等同关系特征加权、相关关系特征加权和等级系数计算自动识别汽车专利领域内词与词之间的等同、相关和等级关系,根据这三种词间关系自动构建一部汽车专利相关领域主题词表。
在本可选的实施方式中,所述等同关系识别,包括:根据共现分析和字面相似度计算加权的方法来识别词间的等同关系,计算方法如下:
Sim(Ti,Tj)=α·W(Ti,Tj)+β·S(Ti,Tj)
其中,Ti、Tj为两个不相同的词,Sim(Ti,Tj)为两词间的相似度;W(Ti,Tj)为两词间的共现权重;S(Ti,Tj)为两词间的字面相似度;α、β为权重因子且α+β=1。
在本申请实施例中,词与词之间的等同关系,本申请主要是指词与词之间的词义完全等同如“脚踏车”与“自行车”,词义相反如“输入轴”与“输出轴”,词义相近如“保护层”与“绝缘层”。本申请根据共现分析和字面相似度进行同义词识别。
在本可选的实施方式中,所述共现权重的计算方法为:
Figure BDA0002777856240000061
其中,W(T1,T2)为词T1和T2的距离,表征两词间的共现权重;T1、T2为两个不相同的词,K表示特征向量的维数;W1i表示词T1的特征向量第i维的值;W2i表示词T2的特征向量第i维的值。
在本可选的实施方式中,所述字面相似度计算方法下:
Figure BDA0002777856240000062
其中,Ti、Tj为两个不相同的词,S(Ti,Tj)是词间的字面相似度;Lij为词Ti和Tj中相同字的个数;Li、Lj分别为词Ti和Tj的长度。
在本可选的实施方式中,所述相关关系识别,包括:采用如下公式来识别术语之间的关联度:
Rel(Ti,Tj)=γ·W(Ti,Tj)+δ·Dice(Ti,Tj)
其中,Ti、Tj为两个不相同的词,Rel(Ti,Tj)为两词间的相关度;W(Ti,Tj)为两词间的共现权重;Dice(Ti,Tj)为两词间的Dice测试权重;γ、δ为权重因子且γ+δ=1。
在本可选的实施方式中,所述两词间的Dice测试权重的计算方式如下:
Dice(Ti,Tj)=2F(Ti,Tj)/(F(Ti)+F(Tj))
其中,Ti、Tj为两个不相同的词,Dice(Ti,Tj)表示词Ti与词Tj的Dice测度值;F(Ti,Tj)表示词Ti与词Tj共同出现的文章总数;F(Ti)表示出现词Ti的文章总数;F(Tj)表示出现词Tj的文章总数。
在本申请实施例中,相关关系挖掘主要计算词汇之间相关度的大小,本申请采用Dice测度和词汇语义距离计算词与词之间的关联。
在本可选的实施方式中,所述等级关系识别,采用如下公式:
Figure BDA0002777856240000071
idf(Ti)=log(N/ni)
其中,H(Ti)为词汇的等级系数;Freq(Ti)为词汇Ti的总词频,len(Ti)表示词汇Ti的长度;idf(Ti)为词汇的逆文档频率;N表示文档总数;ni指出现词汇Ti的文档数。
在本申请实施例中,词频和词长作为考虑词上下位关系的因素,词频越高作为上位词的可能性越大,词长越长作为下位词的可能性越大,本申请还认为词汇出现的反文档频率越大词汇作为上位词的可能性越大。根据以上因素,本申请采用上述公式对词汇所处等级进行量化。
实施例二
请参阅图2,图2是本申请实施例公开的一种主题词表构建系统的结构示意图。如图2所示,本申请实施例的一种主题词表构建系统,所述系统包括:
预处理模块,用于对汽车领域专利文本进行预处理:首先提取各专利文本中的子句;其次,对每个子句,结合属性词本体词库,进行分词,从而构建初步主题词集;
词间关系识别模块,用于对所述初步主题词集进行等同关系识别、相关关系识别、等级关系识别;
主题词表构建模块,基于所述识别得出的等同关系、相关关系、等级关系,构建主题词表。
在本申请实施例中,本申请将在计算机相关技术基础之上应用统计学的相关知识和本申请提出的等同关系特征加权、相关关系特征加权和等级系数计算自动识别汽车专利领域内词与词之间的等同、相关和等级关系,根据这三种词间关系自动构建一部汽车专利相关领域主题词表。
实施例三
请参阅图3,图3是本申请实施例公开的一种主题词表构建设备的结构示意图。如图3所示,本申请实施例的主题词表构建设备,其特征在于,所述设备包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如第一实施例所述的主题词表构建方法。
实施例四
本申请实施例提供一种存储介质,其特征在于,所述存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如第一实施例所述的主题词表构建方法。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种主题词表构建方法,其特征在于:所述方法包括:
步骤1,对汽车领域专利文本进行预处理:首先提取各专利文本中的子句;其次,对每个子句,结合属性词本体词库,进行分词,从而构建初步主题词集;
步骤2,对所述初步主题词集进行等同关系识别、相关关系识别、等级关系识别;
步骤3,基于所述识别得出的等同关系、相关关系、等级关系,构建主题词表。
2.根据权利要求1所述的方法,其特征在于:所述等同关系识别,包括:根据共现分析和字面相似度计算加权的方法来识别词间的等同关系,计算方法如下:
Sim(Ti,Tj)=α·W(Ti,Tj)+β·S(Ti,Tj)
其中,Ti、Tj为两个不相同的词,Sim(Ti,Tj)为两词间的相似度;W(Ti,Tj)为两词间的共现权重;S(Ti,Tj)为两词间的字面相似度;α、β为权重因子且α+β=1。
3.根据权利要求2所述的方法,其特征在于:所述共现权重的计算方法为:
Figure FDA0002777856230000011
其中,W(T1,T2)为词T1和T2的距离,表征两词间的共现权重;T1、T2为两个不相同的词,K表示特征向量的维数;W1i表示词T1的特征向量第i维的值;W2i表示词T2的特征向量第i维的值。
4.根据权利要求2所述的方法,其特征在于:所述字面相似度计算方法下:
Figure FDA0002777856230000012
其中,Ti、Tj为两个不相同的词,S(Ti,Tj)是词间的字面相似度;Lij为词Ti和Tj中相同字的个数;Li、Lj分别为词Ti和Tj的长度。
5.根据权利要求1所述的方法,其特征在于:所述相关关系识别,包括:采用如下公式来识别术语之间的关联度:
Rel(Ti,Tj)=γ·W(Ti,Tj)+δ·Dice(Ti,Tj)
其中,Ti、Tj为两个不相同的词,Rel(Ti,Tj)为两词间的相关度;W(Ti,Tj)为两词间的共现权重;Dice(Ti,Tj)为两词间的Dice测试权重;γ、δ为权重因子且γ+δ=1。
6.根据权利要求5所述的方法,其特征在于:所述两词间的Dice测试权重的计算方式如下:
Dice(Ti,Tj)=2F(Ti,Tj)/(F(Ti)+F(Tj))
其中,Ti、Tj为两个不相同的词,Dice(Ti,Tj)表示词Ti与词Tj的Dice测度值;F(Ti,Tj)表示词Ti与词Tj共同出现的文章总数;F(Ti)表示出现词Ti的文章总数;F(Tj)表示出现词Tj的文章总数。
7.根据权利要求1所述的方法,其特征在于:所述等级关系识别,采用如下公式:
Figure FDA0002777856230000021
idf(Ti)=log(N/ni)
其中,H(Ti)为词汇的等级系数;Freq(Ti)为词汇Ti的总词频,len(Ti)表示词汇Ti的长度;idf(Ti)为词汇的逆文档频率;N表示文档总数;ni指出现词汇Ti的文档数。
8.一种主题词表构建系统,其特征在于:所述系统包括:
预处理模块,用于对汽车领域专利文本进行预处理:首先提取各专利文本中的子句;其次,对每个子句,结合属性词本体词库,进行分词,从而构建初步主题词集;
词间关系识别模块,用于对所述初步主题词集进行等同关系识别、相关关系识别、等级关系识别;
主题词表构建模块,基于所述识别得出的等同关系、相关关系、等级关系,构建主题词表。
9.一种主题词表构建设备,其特征在于,所述设备包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-7任一项所述的主题词表构建方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1-7任一项的主题词表构建方法。
CN202011271598.XA 2020-11-13 2020-11-13 一种主题词表构建方法、系统及计算机存储介质 Pending CN112328736A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011271598.XA CN112328736A (zh) 2020-11-13 2020-11-13 一种主题词表构建方法、系统及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011271598.XA CN112328736A (zh) 2020-11-13 2020-11-13 一种主题词表构建方法、系统及计算机存储介质

Publications (1)

Publication Number Publication Date
CN112328736A true CN112328736A (zh) 2021-02-05

Family

ID=74319195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011271598.XA Pending CN112328736A (zh) 2020-11-13 2020-11-13 一种主题词表构建方法、系统及计算机存储介质

Country Status (1)

Country Link
CN (1) CN112328736A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204620A (zh) * 2021-05-12 2021-08-03 首都师范大学 一种叙词表自动构建的方法、系统、设备以及计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708147A (zh) * 2012-03-26 2012-10-03 北京新发智信科技有限责任公司 一种科技术语的新词识别方法
US9053000B1 (en) * 2012-09-27 2015-06-09 Emc Corporation Method and apparatus for event correlation based on causality equivalence
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
CN110457690A (zh) * 2019-07-26 2019-11-15 南京邮电大学 一种专利创造性的判断方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708147A (zh) * 2012-03-26 2012-10-03 北京新发智信科技有限责任公司 一种科技术语的新词识别方法
US9053000B1 (en) * 2012-09-27 2015-06-09 Emc Corporation Method and apparatus for event correlation based on causality equivalence
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
CN110457690A (zh) * 2019-07-26 2019-11-15 南京邮电大学 一种专利创造性的判断方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
仲云云: "《电子政务主题词表的构建及应用研究》", 29 March 2016, pages: 11 - 12 *
吴霞等: ""生物、医学、农业领域主题词表编制现状和发展趋势"", 《图书馆学研究》 *
吴霞等: ""生物、医学、农业领域主题词表编制现状和发展趋势"", 《图书馆学研究》, no. 4, 25 February 2020 (2020-02-25), pages 45 - 46 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204620A (zh) * 2021-05-12 2021-08-03 首都师范大学 一种叙词表自动构建的方法、系统、设备以及计算机存储介质

Similar Documents

Publication Publication Date Title
CN110929038B (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
US8073877B2 (en) Scalable semi-structured named entity detection
CN111105209B (zh) 适用于人岗匹配推荐系统的职位简历匹配方法及装置
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN108536807B (zh) 一种信息处理方法及装置
AU2018226420B2 (en) Voice assisted intelligent searching in mobile documents
CN112559684A (zh) 一种关键词提取及信息检索方法
KR20110060806A (ko) 미등록 단어의 카테고리 결정 방법 및 장치
CN112507109A (zh) 一种基于语义分析与关键词识别的检索方法和装置
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
CN111651675B (zh) 一种基于ucl的用户兴趣主题挖掘方法及装置
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
CN112836029A (zh) 一种基于图的文档检索方法、系统及其相关组件
CN113988157A (zh) 语义检索网络训练方法、装置、电子设备及存储介质
JP2013003663A (ja) 情報処理装置、情報処理方法、およびプログラム
CN114255096A (zh) 数据需求匹配方法和装置、电子设备、存储介质
CN112328736A (zh) 一种主题词表构建方法、系统及计算机存储介质
CN112307204A (zh) 基于聚类等级关系自动识别方法、系统、设备及存储介质
CN115563515B (zh) 文本相似性检测方法、装置、设备及存储介质
CN115309995A (zh) 一种基于需求文本的科技资源推送方法和装置
Lai et al. An unsupervised approach to discover media frames
CN110413735B (zh) 一种问答检索方法及其系统、计算机设备、可读存储介质
CN113656429A (zh) 一种关键词提取方法、装置、计算机设备和存储介质
CN115827817A (zh) 一种文本类别的确定方法、相关装置以及设备
CN100535893C (zh) 一种计算机标引和检索的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210205