CN105447158A - 一种基于图的专利搜索日志中同义词集自动挖掘方法 - Google Patents

一种基于图的专利搜索日志中同义词集自动挖掘方法 Download PDF

Info

Publication number
CN105447158A
CN105447158A CN201510863731.3A CN201510863731A CN105447158A CN 105447158 A CN105447158 A CN 105447158A CN 201510863731 A CN201510863731 A CN 201510863731A CN 105447158 A CN105447158 A CN 105447158A
Authority
CN
China
Prior art keywords
knowledge graph
limit
weight
word
patent search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510863731.3A
Other languages
English (en)
Inventor
吕学强
周建设
董志安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Capital Normal University
Beijing Information Science and Technology University
Original Assignee
Capital Normal University
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Capital Normal University, Beijing Information Science and Technology University filed Critical Capital Normal University
Priority to CN201510863731.3A priority Critical patent/CN105447158A/zh
Publication of CN105447158A publication Critical patent/CN105447158A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于图的专利搜索日志中同义词集自动挖掘方法,包括以下步骤:步骤1)基于专利搜索日志进行候选同义词集挖掘,抽取出专利搜索日志中的候选同义词集,并将获得的候选同义词集放在同一行中;步骤2)将所述候选同义词集构成知识图;步骤3)通过分割语料、加重对称共现边、加重三角形、惩罚音节不等四种方法改进知识图边权重计算,调节所述知识图的知识图边权重;步骤4)利用Newman聚类算法对知识图进行聚类,将聚在同一类中的候选同义词对作为同义词集。本发明有效地提高了同义词集自动挖掘的准确率,实现了专利搜索日志中同义词集的自动挖掘工作,可以很好地满足实际应用的需要。

Description

一种基于图的专利搜索日志中同义词集自动挖掘方法
技术领域
本发明属于中文信息处理技术领域,具体涉及一种基于图的专利搜索日志中同义词集自动挖掘方法。
背景技术
同义词集是自然语言处理的一项基础研究,在机器翻译、查询扩展、信息检索等领域都有重要作用。目前存在的同义词资源大多数是通过手工或半手工构建的,这些资源的准确率虽高但是花费了大量的人力物力,而且存在词典的质量容易受到人主观因素的干扰、不能真实反映词汇在大规模语料中的用法、不能及时更新等缺点。因此,基于大规模语料库的同义词自动挖掘工作显得尤为重要。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的基于图的专利搜索日志中同义词集自动挖掘方法。
为了实现上述发明目的,本发明采用的技术方案如下:
一种基于图的专利搜索日志中同义词集自动挖掘方法,包括以下步骤:
步骤1)基于专利搜索日志进行候选同义词集挖掘,抽取出专利搜索日志中的候选同义词集,并将获得的候选同义词集放在同一行中;
步骤2)将所述候选同义词集构成知识图;
步骤3)通过分割语料、加重对称共现边、加重三角形、惩罚音节不等四种方法改进知识图边权重计算,调节所述知识图的知识图边权重;
步骤4)利用Newman聚类算法对知识图进行聚类,将聚在同一类中的候选同义词对作为同义词集。
进一步地,所述知识图由顶点和边构成,每一个词视为一个顶点,两个词之间的联系视为一条边,词对在专利搜索日志中共现的次数作为边的权值;所述知识图是一个有向图,边的方向代表候选同义词词对中的两个词的组合顺序。
进一步地,所述分割语料方法的具体步骤为:
将日志语料分为多个子语料,利用所述步骤1)的基于专利搜索日志的候选同义词挖掘方法,挖掘出每个子语料中的候选同义词。
进一步地,所述加重对称共现边方法具体步骤为:将对称共现边的权值放大,使其在图中的作用加强。所述权值的计算公式如下:
weight=δ*min(Time(wi,wj),Time(wj,wi)),其中,δ为大于1的数。
进一步地,所述加重三角形方法的具体步骤为:
把由三个子图构成的图形看成一个团,通过改变团中边的权重因子对候选同义词进行聚类;
进一步地,所述惩罚音节不等方法的步骤为:减小一个词对中两个词的音节数相差很大的词对的权重因子。
进一步地,所述惩罚音节不等方法的步骤具体为:将音节严重不等的词对的权重因子降低为原来的ε倍,其中ε为小于1的数。。
本发明提供的基于图的专利搜索日志中同义词集自动挖掘方法,根据专利搜索日志中同义词出现的特点挖掘出候选同义词集,并且通过分割语料、加重对称共现边、加重三角形和惩罚音节不等四种方法改进知识图边权重计算,最后结合Newman算法对知识图进行聚类,有效地提高了同义词集自动挖掘的准确率,实现了专利搜索日志中同义词集的自动挖掘工作,可以很好地满足实际应用的需要。
附图说明
图1为本发明的流程图;
图2为已处理的专利搜索日志的示例图;
图3为表1中的候选同义词词对构成的有向知识图;
图4为三角形知识图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,基于图的专利搜索日志中同义词集自动挖掘方法包括以下步骤:
步骤1)基于专利搜索日志进行候选同义词集挖掘,抽取出专利搜索日志中的候选同义词集,并将获得的候选同义词集放在同一行中;
步骤2)将所述候选同义词集构成知识图;
步骤3)通过分割语料、加重对称共现边、加重三角形、惩罚音节不等四种方法改进知识图边权重计算,调节所述知识图的知识图边权重;
步骤4)利用Newman聚类算法对知识图进行聚类,将聚在同一类中的候选同义词对作为同义词集。
具体地:
Newman算法最初被广泛应用在网络社区的结构探测中,本发明首次将Newman算法用于专利搜索日志的同义词自动挖掘工作中。Newman算法是基于模块化思想的方法,该算法的核心是将一个社区划分为若干个小区,每个小区代表一个类别,并且通过一个质量函数(QualityFunction)Q来评测该划分是否为最合理的划分。
{ a i = Σ j e i j Q = Σ i ( e i i - a i 2 ) , - - - ( 1 )
ΔQ=eij+eji-2aiaj=2(eij-aiaj),(2)
其中,eij代表连接图i和图j中所有顶点之间边的权值之和除以总的边的权值之和。eii代表图i内部所有顶点连接的边权值之和除以总的边的权值之和。质量函数Q代表在当前划分下,落在某一子图内部的边的比例和随机划分时各边时这个量之间差的期望值。如果在某一个划分中,图内部边的比例小于随机划分下的期望值,则Q=0。当Q不为零时,表示特定的划分与随机划分存在偏离。然后通过公式(2)计算两个子图合并的增量ΔQ,将增量值最大的子图进行合并。如果待合并的两个子图之间没有边,那么ΔQ=0,只需考虑之间有边连接的子图。利用公式(2)表示两个子图合并时Q值的增量。每次迭代的过程就是计算ΔQ的过程,即计算出哪两个类合并最为合理。
对同义词挖掘结果进行评测是一个公认的难题,主要是因为没有标准的参考答案支撑。目前存在的两种主要评测方法:人工评价,即是通过专家打分制定标准答案;基于某个权威词典进行评测,如英文中经常参照WordNet。由于专利领域的同义词词典目前还不存在,所以采用第一种方法对实验结果进行评测。由于语料的规模比较大,所以准确率比召回率更为重要。本发明采用两个指标分别对实验结果和Newman聚类结果进行评测。
第一个评价指标是同义词的正确率,如公式(3)所示:
另外一个是本发明提出的聚类评价指标P,该指标是聚类结果的度量,其计算方法如公式(4)和公式(5)所示。
设候选同义词集为Set,w1,w2,w3...wn为每个日志中的词汇,flagpq表示词对wpwq是否为同义词,flagpq的取值范围如下:
flag p q = { 1 w p w q ∈ S e t 0 w p w q ∉ S e t , - - - ( 4 )
其中,flagpq=1表示词对wpwq为同义词,flagpq=0,表示词对wpwq不为同义词,这里,1<p<n,1<q<n,p≠q,n表示候选同义词对数。则P的计算方法如下:
P = Σ i Σ p q flag p q T o t a l , - - - ( 5 )
其中,表示候选同义词对在采用的Newman聚类中被聚在一类的个数,Total代表总的候选同义词对的个数。该指标是指聚在同一类别中的候选同义词词对数与总的候选同义词词对数的比值。这样做的目的是通过Newman聚类过滤掉候选同义词对中非同义词对,而且可以避免以下情况发生,词汇word1和word2是同义词,word2和word3是同义词,从而得到word1和word3也是同义词。虽然同义词具有传递性,但是通过聚类算法将候选同义词对聚在一起,本身带有不确定性,也就是说如果word1,word2和word3经过聚类之后在同一个类别里面,并不是每两个词对之间都是同义词的关系。实验结果将结合质量函数Q和聚类评价指标P对聚类结果进行评价。
本发明的基本思想是根据用户行为特点从专利搜索日志中获取候选同义词集,利用提出的四种方法改进知识图边权重计算,然后利用Newman算法对改进的知识图进行聚类。
专利搜索日志中的大部分查询串包含了一个事物的多种描述方式,这些描述方式之间通过“or”、“and”、“not”等逻辑运算符进行连接,而且这些逻辑运算符连接的部分词汇存在并列关系,如图1所示。根据这一特点,抽取出专利搜索日志中候选同义词集,并将获得的候选同义词集放在同一行中。假设一行中有n个词汇,那么该同义词集可以获取个候选同义词对。
如图2所示为一个已处理的专利搜索日志的示例图,如其中第18行所示,候选同义词集为:甲壳素几丁质壳聚糖,那么候选同义词对就有3对,即:甲壳素几丁质;甲壳素壳聚糖;几丁质壳聚糖。充分利用专利搜索日志中同义词分布的特点,获取的候选同义词集的准确率也比较高,这样保证了Newman算法的输入数据的质量,利于获取更好的聚类结果。
Newman算法是一种基于图的聚类算法,它是将一个网络划分为若干个子图,然后通过计算每个子图与其他若干子图之间的距离,从而达到聚类的目的,因此知识图的构建是进行Newman聚类的基础环节。知识图由顶点和边构成,本发明的知识图来源于专利搜索日志中提取的候选同义词集,将每一个词视为一个顶点,两个词之间的联系视为一条边,词对在专利搜索日志中共现的次数作为边的权值。知识图是一个有向图,边的方向代表候选同义词词对中的两个词的组合顺序。例如,如表1所示为候选同义词词对的信息的一个示例,如下所示:
表1候选同义词对信息
图3所示的是表1中的候选同义词词对构成的一个有向知识图,其中每个词汇代表一个子图,边上的权值代表词对在专利搜索日志中出现的次数,方向代表词对中的两个词在专利搜索日志的某个查询串中出现的次序,例如子图电脑和计算机,用户输入“电脑计算机”进行查询信息的次数为4,用户输入“计算机电脑”进行查询信息的次数为3。
Newman算法是根据知识图中的边权重信息进行迭代运算从而得到最佳的聚类效果。因此,在语料限定的条件下,利用Newman聚类算法提高同义词集自动挖掘效果的主要方式就是运用各种知识调整知识图中边的权重。根据专利搜索日志语料自身的特点,设计了以下四种方法对知识图边权重进行调节。
利用分窗口语料的方法可以提高自动挖掘同义词集的效果,因此为了获取更精确的同义词集采用分割语料的方法,实验中将日志语料分为5个子语料,利用第三章中提到的基于专利搜索日志的候选同义词挖掘方法,挖掘出每个子语料中的候选同义词。方法1是抽取出至少出现在两个专利日志中的词对集,方法2是抽取出至少同时出现在三个专利日志中的词对集,方法3是抽取出至少出现在四个专利日志中的词对集,其中词对的权值因子设为词对在专利搜索日志中共现的最小次数。
time k = 1 ( w i , w j ) &Element; log k ( 0 < k &le; 5 ) time k = 0 ( w i , w j ) &NotElement; log k ( 0 < k &le; 5 ) , - - - ( 6 )
其中,logk是指第k个子日志文件。方法1中,规定Time1=∑ktimek≥2,方法2中规定Time2=∑ktimek≥3,方法3中规定Time3=∑ktimek≥4,其中权值因子weight的计算方法如下:
weight=min(weightk(wi,wj)),timek=1,(7)
其中,weightk(wi,wj)表示词对(wi,wj)在第k个日志文件中的取值因子。timek=1表示词对(wi,wj)在第k个日志文件出现的情况。
局部上下文检索方法能严格控制窗口的大小,且两个词必须是相邻的,权值因子取两个词对称共现的最小值,该方法提高了同义词挖掘的效果。基于该思想启发,采用加重对称共现边方法改进知识图边权重因子以达到提高同义词识别的准确率的目的,其中对称共现边指词对(wi,wj)和(wj,wi)同时出现在语料中,研究表明对称共现词对为同义词的可能性更大。该方法将对称共现边的权值适当放大,使其在图中的作用加强。权值计算公式如下:
weight=δ*min(Time(wi,wj),Time(wj,wi)),(8)
其中,δ为大于1的数。
利用团的思想对相似词进行聚类,相似词之间存在很密切的联系。本发明采用相似的方法对同义词进行聚类,把由三个子图构成的图形看成一个团,通过改变团中边的权重因子对候选同义词进行聚类。三角形是指三个词wi,wj,wk在语料中出现的形式可以构成一个三角形,如图4所示,当词对(wi,wj)和(wj,wk)出现时,词对(wk,wi)或者词对(wi,wk)也同时出现,即可以形成一个三角形的图,这种形式出现的词对是同义词的可能性也比较大。
将词对(wi,wj)(wj,wk)(wk,wi)的权重因子均增加为原来的α倍,其中α为大于1的数,然后对其进行Newman聚类。
基于字面相似度识别同义词,即同义词在字面及字数上均有比较相似的地方。基于这一点,为了进一步提高Newman聚类效果,以及同义词的正确率,本发明采用惩罚音节不等的方法改进知识图边权重。该方法的主要思想是如果一个词对中两个词的音节数相差很大,则减小该词对的权重因子,也就是减小其对聚类的影响。具体方法就是将音节严重不等的词对(wi,wj)的权重因子降低为原来的ε倍,其中ε为小于1的数。
本发明采用了四种方法改进知识图边权重计算,并利用公式(1)和公式(2)对候选同义词集进行聚类。首先,将分割语料方法中获取的三种候选同义词集,分别进行聚类,通过质量函数Q和本发明提出的聚类评测指标P对聚类结果进行筛选。将Q值接近0.8,P值最大的聚类结果作为最佳结果。然后,利用加重对称共现边方法进一步对其进行聚类,通过实验调节加重因子,直到得到比较好的聚类结果。用类似的方法对加重三角形方法和惩罚音节不等的方法得到候选同义词集进行聚类。最终将聚在同一类中的候选同义词对作为同义词集。
针对本发明提出的基于图的专利搜索日志中同义词集自动挖掘方法进行实验,实验采用的是内容大小为10G的专利搜索日志,该日志是某专利检索系统提供的专利搜索记录。首先利用正则表达式过滤掉专利搜索日志中重复的查询词串,根据前述提到的方法获取候选同义词词集,词对的权重是指两个词在专利搜索日志中同时出现在一个查询词串中的次数。为了获取更好的聚类效果,需要对知识图进一步的处理,本发明主要通过上面提到的四种改进的方法调整图中的边权值和顶点的信息,然后利用公式(1)和公式(2)对候选词集进行聚类,实验过程如下:
根据本发明的分割语料方法获取三种不同的候选同义词词对,然后分别利用Newman聚类算法对三个知识图进行聚类,词对数是指进行Newman聚类的词对数,类别数是指聚出的类个数,同义词对数是指经过Newman聚类获得的同义词词表中的词对数。接下来的改进工作都是基于方法1的12584个词对进行的。
在分割语料的基础上,根据本发明的加重对称共现边方法改进知识图中边的权重,然后利用Newman聚类算法对知识图进行聚类。由实验可以得出,加重对称共现边的方法可以有效的提高同义词的识别效果。当δ=5时,聚类效果和正确率都有很大提高,说明通过加重对称共现边的方法可以找回对称词对的同义词。
在上述分割语料方法和加重对称共现边方法两种方法的基础上,根据本发明的加重三角形方法改进知识图中边的权重。该方法将词对(wi,wj)(wj,wk)(wk,wi)的权重因子均增加为原来的α倍,其中α为大于1的数。
接下来,根据本发明的惩罚音节不等方法改进知识图中边的权重,然后利用Newman聚类算法对知识图进行聚类。该方法就是将音节严重不等的词对(wi,wj)的权重因子降低为原来的ε倍,其中ε为小于1的数。通过实验可以得出,当ε=0.8时,聚类效果和同义词表的正确率都比较理想。利用该方法,实验的正确率在加重对称共现边的基础上提高了0.6%。
由实验可知,通过分割语料、加重对称共现边、加重三角形和惩罚音节不等四种方法改进知识图中边的权重,然后利用Newman聚类算法对知识图进行聚类,有效地提高了同义词集自动挖掘的准确率。
本发明提供的基于图的专利搜索日志中同义词集自动挖掘方法,根据专利搜索日志中同义词出现的特点挖掘出候选同义词集,并且通过分割语料、加重对称共现边、加重三角形和惩罚音节不等四种方法改进知识图边权重计算,最后结合Newman算法对知识图进行聚类,有效地提高了同义词集自动挖掘的准确率,实现了专利搜索日志中同义词集的自动挖掘工作,可以很好地满足实际应用的需要。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种基于图的专利搜索日志中同义词集自动挖掘方法,其特征在于,包括以下步骤:
步骤1)基于专利搜索日志进行候选同义词集挖掘,抽取出专利搜索日志中的候选同义词集,并将获得的候选同义词集放在同一行中。
步骤2)将所述候选同义词集构成知识图。
步骤3)通过分割语料、加重对称共现边、加重三角形、惩罚音节不等四种方法改进知识图边权重计算,调节所述知识图的知识图边权重。
步骤4)利用Newman聚类算法对知识图进行聚类,将聚在同一类中的候选同义词对作为同义词集。
2.根据权利要求1所述的基于图的同义词集自动挖掘方法,其特征在于,所述知识图由顶点和边构成,每一个词视为一个顶点,两个词之间的联系视为一条边,词对在专利搜索日志中共现的次数作为边的权值。所述知识图是一个有向图,边的方向代表候选同义词词对中的两个词的组合顺序。
3.根据权利要求1所述的基于图的同义词集自动挖掘方法,其特征在于,所述分割语料方法的具体步骤为:
将日志语料分为多个子语料,利用所述步骤1)的基于专利搜索日志的候选同义词挖掘方法,挖掘出每个子语料中的候选同义词。
4.根据权利要求1所述的基于图的同义词集自动挖掘方法,其特征在于,所述加重对称共现边方法具体步骤为:将对称共现边的权值放大,使其在图中的作用加强。所述权值的计算公式如下:
weight=δ*min(Time(wi,wj),Time(wj,wi)),其中,δ为大于1的数。
5.根据权利要求1所述的基于图的同义词集自动挖掘方法,其特征在于,所述加重三角形方法的具体步骤为:
把由三个子图构成的图形看成一个团,通过改变团中边的权重因子对候选同义词进行聚类。
6.根据权利要求1所述的基于图的同义词集自动挖掘方法,其特征在于,所述惩罚音节不等方法的步骤为:减小一个词对中两个词的音节数相差很大的词对的权重因子。
7.根据权利要求1-6所述的基于图的同义词集自动挖掘方法,其特征在于,所述惩罚音节不等方法的步骤具体为:将音节严重不等的词对的权重因子降低为原来的ε倍,其中ε为小于1的数。
CN201510863731.3A 2015-12-02 2015-12-02 一种基于图的专利搜索日志中同义词集自动挖掘方法 Pending CN105447158A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510863731.3A CN105447158A (zh) 2015-12-02 2015-12-02 一种基于图的专利搜索日志中同义词集自动挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510863731.3A CN105447158A (zh) 2015-12-02 2015-12-02 一种基于图的专利搜索日志中同义词集自动挖掘方法

Publications (1)

Publication Number Publication Date
CN105447158A true CN105447158A (zh) 2016-03-30

Family

ID=55557334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510863731.3A Pending CN105447158A (zh) 2015-12-02 2015-12-02 一种基于图的专利搜索日志中同义词集自动挖掘方法

Country Status (1)

Country Link
CN (1) CN105447158A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897378A (zh) * 2017-01-20 2017-06-27 浙江大学 一种面向三维cad模型的语义参数检索动态调节方法
WO2021109787A1 (zh) * 2019-12-05 2021-06-10 京东方科技集团股份有限公司 同义词挖掘方法、同义词词典的应用方法、医疗同义词挖掘方法、医疗同义词词典的应用方法、同义词挖掘装置及存储介质
CN116340469A (zh) * 2023-05-29 2023-06-27 之江实验室 一种同义词挖掘方法、装置、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070005739A1 (en) * 2005-06-30 2007-01-04 International Business Machines Corporation Method and apparatus for dynamically controlling the selection and redundancy of web service components
CN102194205A (zh) * 2010-03-18 2011-09-21 湖南大学 一种基于同义词替换的文本可恢复水印方法和装置
CN103631882A (zh) * 2013-11-14 2014-03-12 北京邮电大学 基于图挖掘技术的语义化业务生成系统和方法
CN103914492A (zh) * 2013-01-09 2014-07-09 阿里巴巴集团控股有限公司 查询词融合方法、商品信息发布方法和搜索方法及系统
CN103970730A (zh) * 2014-04-29 2014-08-06 河海大学 一种从单个中文文本中提取多主题词的方法
CN104820713A (zh) * 2015-05-19 2015-08-05 苏州工讯科技有限公司 一种基于用户历史数据获得工业产品名称同义词的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070005739A1 (en) * 2005-06-30 2007-01-04 International Business Machines Corporation Method and apparatus for dynamically controlling the selection and redundancy of web service components
CN102194205A (zh) * 2010-03-18 2011-09-21 湖南大学 一种基于同义词替换的文本可恢复水印方法和装置
CN103914492A (zh) * 2013-01-09 2014-07-09 阿里巴巴集团控股有限公司 查询词融合方法、商品信息发布方法和搜索方法及系统
CN103631882A (zh) * 2013-11-14 2014-03-12 北京邮电大学 基于图挖掘技术的语义化业务生成系统和方法
CN103970730A (zh) * 2014-04-29 2014-08-06 河海大学 一种从单个中文文本中提取多主题词的方法
CN104820713A (zh) * 2015-05-19 2015-08-05 苏州工讯科技有限公司 一种基于用户历史数据获得工业产品名称同义词的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吴云芳 等: "基于图的同义词集自动获取方法", 《计算机研究与发展》 *
李军峰 等: "专利领域同义词识别", 《小型微型计算机系统》 *
王颖 等: "基于专利搜索日志的同义词挖掘", 《计算机工程与设计》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897378A (zh) * 2017-01-20 2017-06-27 浙江大学 一种面向三维cad模型的语义参数检索动态调节方法
WO2021109787A1 (zh) * 2019-12-05 2021-06-10 京东方科技集团股份有限公司 同义词挖掘方法、同义词词典的应用方法、医疗同义词挖掘方法、医疗同义词词典的应用方法、同义词挖掘装置及存储介质
US11977838B2 (en) 2019-12-05 2024-05-07 Boe Technology Group Co., Ltd. Synonym mining method, application method of synonym dictionary, medical synonym mining method, application method of medical synonym dictionary, synonym mining device and storage medium
CN116340469A (zh) * 2023-05-29 2023-06-27 之江实验室 一种同义词挖掘方法、装置、存储介质及电子设备
CN116340469B (zh) * 2023-05-29 2023-08-11 之江实验室 一种同义词挖掘方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN102662952B (zh) 一种基于层次的中文文本并行数据挖掘方法
Shiokawa et al. Fast algorithm for modularity-based graph clustering
CN103605665B (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN101763404B (zh) 基于模糊聚类的网络文本数据检测方法
CN101488150B (zh) 一种实时多角度网络热点事件分析装置及分析方法
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN103235774B (zh) 一种科技项目申请书特征词提取方法
CN102214241B (zh) 一种基于图聚类的用户生成文本流中的突发话题检测方法
CN101398814B (zh) 一种同时抽取文档摘要和关键词的方法及系统
CN105653518A (zh) 一种基于微博数据的特定群体发现及扩充方法
CN110781679B (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN104008090A (zh) 一种基于概念向量模型的多主题提取方法
CN103678670A (zh) 一种微博热词与热点话题挖掘系统及方法
CN105320646A (zh) 一种基于增量聚类的新闻话题挖掘方法及其装置
CN101149739A (zh) 一种面向互联网的有意义串的挖掘方法和系统
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN106776672A (zh) 技术发展脉络图确定方法
CN107832467A (zh) 一种基于改进的Single‑pass聚类算法的微博话题检测方法
CN106503256B (zh) 一种基于社交网络文档的热点信息挖掘方法
CN104391852B (zh) 一种建立关键词词库的方法和装置
CN105447158A (zh) 一种基于图的专利搜索日志中同义词集自动挖掘方法
CN111090811A (zh) 一种海量新闻热点话题提取方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160330