CN107451126A - 一种近义词筛选方法及系统 - Google Patents
一种近义词筛选方法及系统 Download PDFInfo
- Publication number
- CN107451126A CN107451126A CN201710719167.7A CN201710719167A CN107451126A CN 107451126 A CN107451126 A CN 107451126A CN 201710719167 A CN201710719167 A CN 201710719167A CN 107451126 A CN107451126 A CN 107451126A
- Authority
- CN
- China
- Prior art keywords
- near synonym
- word
- candidate
- term vector
- language material
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种近义词筛选方法,包括以下步骤:训练大语料词语的词向量;挖掘大语料词语的近义词,具体包括:获取候选近义词集合;更新近义词相似度;筛选获得近义词列表。相比于现有技术,本发明的近义词筛选方法中,经过大语料训练得到的近义词覆盖面广,增添较新的大语料则能找到时效性好的近义词,经过近义词相互之间需要近义的原则筛选得到的近义词质量更高,为自然语言处理的语义理解增添非常有力的工具。将本发明应用于聊天机器人中,能够更好的识别用户用不同词语表达相同意思的句子,提高了机器人理解句子的水平。
Description
技术领域
本发明涉及人工智能领域,特别是一种近义词筛选方法及系统。
背景技术
在聊天机器人设计中,经常需要让计算机理解用户的同一句话,用不同的表达形式,以提高机器人对句子的识别水平,其中近义词的变换是最常用办法。近义词在信息抽取、问答系统、数据挖掘等基础应用中发挥重要的作用。现有的近义词挖掘方法要么词语的覆盖面窄,要么获取的近义词较陈旧,要么近义词的质量不高,这些问题都影响近义词在自然语言处理领域的应用。
现有技术在进行近义词挖掘时所采用的方法主要包括:
1、依靠本体词典或知识库的规则方法。例如用同义词词林,查找同义词来获取。
2、基于搜索日志对用户行为的同义词自动挖掘的方法。例如,根据大量用户的不同输入词和相同页面的点击操作,及网页开发者对页面的关键词描述等。来挖掘用户之间用不同输入词表达出来的同义关系。
3、利用神经网络语言模型学习词向量化表示,通过计算词向量的余弦相似度来衡量词汇语义上相似的方法。
然而,现有技术中仍然存在以下的缺点和不足:
1、对于依靠本体词典或知识库的规则方法,由于词典和知识库大多依赖人工构建,其时效性和覆盖面都比较差。
2、基于搜索日志行为的方法需要利用同义词集的结构模板,可拓展性和覆盖面都不好。
3、通过神经网络语言模型的词向量化表示的余弦相似度来衡量词汇语义上的相似度,这类方法有一定效果,但是现有的方法不能获取较高质量的近义词。神经网络语言模型的词向量能一定程度反映语义的相似性,但是获取的相似词中有一些词语在语义上并不相近,这些方法都不能把非近义词有效去除从而得到质量较高的近义词。
综上,现有技术的近义词获取方法在获取的近义词时,不能同时达到覆盖面广,时效性好,质量较高的要求,还不能满足自然语言处理的需求,也难以提高聊天机器人理解句子的水平。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供了一种近义词筛选方法及系统。
本发明通过以下的方案实现:一种近义词筛选方法,包括以下步骤:
训练大语料词语的词向量;
挖掘大语料词语的近义词,具体包括:
获取候选近义词集合;
更新近义词相似度;
筛选获得近义词列表。
作为本发明的进一步改进,所述步骤:训练大语料词语的词向量中,具体包括:
抓取原始数据,具体为:抓取各种题材文本数据作为大语料,包括各个领域的各种类型的数据;
预处理大语料,具体为去除非中文字符,通过jieba分词的搜索引擎分词模式进行分词;
训练词向量模型,具体为:使用预处理后的大语料训练神经网络语言模型的词向量,设置参数,并获取大语料中每个词的词向量。
作为本发明的进一步改进,所述步骤:获取候选近义词集合中,具体包括:
计算目标词的词向量和词向量模型里的其他词的词向量的余弦相似度,将余弦相似度降序排序,并输出余弦相似度在前N个词语组成候选近义词集合,所述N为正整数;
对所述候选近义词集合进行相似度阈值过滤和词性过滤,保留跟输入的目标词词性相同的词,作为候选近义词集。
作为本发明的进一步改进,所述步骤:更新近义词相似度,具体为:分别计算每个候选近义词集合的词语和其他候选近义词集合里全部词语的余弦相似度,取余弦相似度的平均值来更新目标词与该候选近义词的相似度。
作为本发明的进一步改进,所述步骤:筛选获得近义词列表,具体为:对候选近义词集合以更新后的余弦相似度降序排序,取余弦相似度在前N个词语或达到设定最小阈值的词语组成近义词列表,所述N为正整数。
本发明还提供了一种近义词筛选系统,其包括:
词向量训练模块,用于训练大语料词语的词向量;
近义词挖掘模块,用于挖掘大语料词语的近义词;所述近义词挖掘模块具体包括:
候选集合获取模块,用于获取候选近义词集合;
更新模块,用于更新近义词相似度;
筛选模块,用于筛选获得近义词列表。
作为本发明的进一步改进,所述词向量训练模块具体包括:
抓取模块,用于通过抓取各种题材文本数据作为大语料,包括各个领域的各种类型的数据;
预处理模块,用于去除非中文字符,通过jieba分词的搜索引擎分词模式进行分词;
训练模块,用于使用预处理后的大语料训练神经网络语言模型的词向量,设置参数,并获取大语料中每个词的词向量。
作为本发明的进一步改进,所述候选集合获取模块具体包括:
计算模块,用于计算目标词的词向量和词向量模型里的其他词的词向量的余弦相似度,将余弦相似度降序排序,并输出余弦相似度在前N个词语组成候选近义词集合,所述N为正整数;
过滤模块,用于对所述候选近义词集合进行相似度阈值过滤和词性过滤,保留跟输入的目标词词性相同的词,作为候选近义词集。
作为本发明的进一步改进,所述更新模块具体通过分别计算每个候选近义词集合的词语和其他候选近义词集合里全部词语的余弦相似度,取余弦相似度的平均值来更新目标词与该候选近义词的相似度。
作为本发明的进一步改进,所述筛选模块具体通过对候选近义词集合以更新后的余弦相似度降序排序,取余弦相似度在前N个词语或达到设定最小阈值的词语组成近义词列表,所述N为正整数。
相比于现有技术,本发明的近义词筛选方法中,经过大语料训练得到的近义词覆盖面广,增添较新的大语料则能找到时效性好的近义词,经过近义词相互之间需要近义的原则筛选得到的近义词质量更高,为自然语言处理的语义理解增添非常有力的工具。将本发明应用于聊天机器人中,能够更好的识别用户用不同词语表达相同意思的句子,提高了机器人理解句子的水平。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1是本发明的近义词筛选方法的步骤流程图。
图2是本发明的近义词筛选系统的模块框图。
具体实施方式
以下结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
请同时参阅图1,其为本发明的近义词筛选方法的步骤流程图。本发明提供了一种近义词筛选方法,包括以下步骤:
S1:训练大语料词语的词向量。
进一步,所述步骤S1中具体包括:
S11:抓取原始数据。具体的,S11具体为:抓取各种题材文本数据作为大语料,包括各个领域的各种类型的数据,例如:各种类型的新闻文本,各种题材的小说文本,全部条目的百科文本。
S12:预处理大语料。所述步骤S12中具体为:去除非中文字符,通过jieba分词的搜索引擎分词模式进行分词,从而避免错过同一个语义的词语的不同表述。
S13:训练词向量模型。所述步骤S13中,具体为:使用预处理后的大语料训练神经网络语言模型的词向量,设置参数,并获取大语料中每个词的词向量。
S2:挖掘大语料词语的近义词。所述步骤S2中,具体包括:
S21:获取候选近义词集合。具体的所述步骤S21中包括:
S211:计算目标词的词向量和词向量模型里的其他词的词向量的余弦相似度,将余弦相似度降序排序,并输出余弦相似度在前N个词语组成候选近义词集合,所述N为正整数。比如,可以将余弦相似度前10个作为候选词。
S212:对所述候选近义词集合进行相似度阈值过滤和词性过滤,保留跟输入的目标词词性相同的词,作为候选近义词集。比如:对前10个候选词进行过滤,将相似度低于0.5的过滤等等,具体可以根据实际情况设置不同的阈值。
S22:更新近义词相似度。
具体的,所述步骤S22具体为:分别计算每个候选近义词集合的词语和其他候选近义词集合里全部词语的余弦相似度,取余弦相似度的平均值来更新目标词与该候选近义词的相似度。
S23:筛选获得近义词列表。
具体的,所述步骤S23具体为:对候选近义词集合以更新后的余弦相似度降序排序,取余弦相似度在前N个词语或达到设定最小阈值的词语组成近义词列表,所述N为正整数。
以下结合具体的例子,说明本发明的近义词筛选方法的应用:
第一、语料训练。具体的,对每个中文单词,找到和它语义接近的其它汉语单词,可以采用Word Embedding技术来实现这个语义的关联。采用的工具是Word2Vec,采用整个百度百科作为训练数据,这样就能得到每个中文单词对应的词向量,这是一种低维度向量形式的单词表示,能够表征单词的部分语义及语法含义。
第二、近义词挖掘。对于任意两个已经用WordEmbedding形式表示的单词,我们可以简单通过计算两个向量之间的Cosine相似性,得出两个单词语义接近程度。
于是,某个单词,我们可以从所有其它单词中找出和这个单词语义最接近的一部分单词,也就是Cosine得分最高的一批单词。例如:对于目标词,“歌曲”可以得出挖掘的结果:歌词:0.87,首歌:0.91,颂歌:0.93,曲调:0.69,进行曲:0.75,唱歌:0.58
对某个单词W找出语义最接近的单词列表后对其进行过滤,过滤规则是:先抽取超过一定阈值的词,例如相似度超过0.5的所有词。接着,根据词性过滤,把这些单词中词性和W相同的留下来,不同的过滤掉。例如,上面的‘唱歌’是动词,因此可以被过滤。这步其实是很关键的,对于后面最终产生的句子语义一致性及可读性有很大影响。主要原因是,尽管理论上通过Word Embedding可以找到语义相似的其它单词,但是其实还是有不少看上去不合理的内容,这是Word Embedding本身产生方式决定的,增加合理的过滤措施能够极大改善句子生成质量,而根据词性过滤就是一个简单易行的方法。
最后,对挖掘到的关键词,进行两两的关键词相似度计算,并把计算结果进行求和与平均,得到一个最终的得分。例如‘首歌’得跟其他的除了目标词之外的,‘歌词’、‘进行曲’等各个词,进行相似度计算,然后取平均值。接着对‘颂歌’进行计算。并对结果按分数高低排序。其中,排序最高的为最适合的近义词。
请同时参阅图2,其为本发明的近义词筛选系统的模块框图。为了实现上述的方法,本发明还提供了一种近义词筛选系统,其包括:词向量训练模块1和近义词挖掘模块2。
所述词向量训练模块1,用于训练大语料词语的词向量。
所述近义词挖掘模块2,用于挖掘大语料词语的近义词。
进一步,所述词向量训练模块1具体包括:抓取模块11、预处理模块12和训练模块13。
所述抓取模块11,用于抓取原始数据,具体通过抓取各种题材文本数据作为大语料,包括各个领域的各种类型的数据。
所述预处理模块12,用于预处理大语料,具体包括:去除非中文字符,通过jieba分词的搜索引擎分词模式进行分词。
所述训练模块13,用于训练词向量模型,具体为:使用预处理后的大语料训练神经网络语言模型的词向量,设置参数,并获取大语料中每个词的词向量。
具体的,所述近义词挖掘模块2具体包括:候选集合获取模块21、更新模块22和筛选模块23。
所述候选集合获取模块21,用于获取候选近义词集合。
进一步,所述候选集合获取模块具体包括:计算模块211和过滤模块212。
所述计算模块211,用于计算目标词的词向量和词向量模型里的其他词的词向量的余弦相似度,将余弦相似度降序排序,并输出余弦相似度在前N个词语组成候选近义词集合,所述N为正整数。
所述过滤模块212,用于对所述候选近义词集合进行相似度阈值过滤和词性过滤,保留跟输入的目标词词性相同的词,作为候选近义词集。
所述更新模块22,用于更新近义词相似度,具体通过分别计算每个候选近义词集合的词语和其他候选近义词集合里全部词语的余弦相似度,取余弦相似度的平均值来更新目标词与该候选近义词的相似度。
所述筛选模块23,用于筛选获得近义词列表,具体通过对候选近义词集合以更新后的余弦相似度降序排序,取余弦相似度在前N个词语或达到设定最小阈值的词语组成近义词列表,所述N为正整数。
相比于现有技术,本发明的近义词筛选方法中,经过大语料训练得到的近义词覆盖面广,增添较新的大语料则能找到时效性好的近义词,经过近义词相互之间需要近义的原则筛选得到的近义词质量更高,为自然语言处理的语义理解增添非常有力的工具。将本发明应用于聊天机器人中,能够更好的识别用户用不同词语表达相同意思的句子,提高了机器人理解句子的水平。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种近义词筛选方法,其特征在于:包括以下步骤:
训练大语料词语的词向量;
挖掘大语料词语的近义词,具体包括:
获取候选近义词集合;
更新近义词相似度;
筛选获得近义词列表。
2.根据权利要求1所述近义词筛选方法,其特征在于:所述步骤:训练大语料词语的词向量中,具体包括:
抓取原始数据,具体为抓取各种题材文本数据作为大语料,包括各个领域的各种类型的数据;
预处理大语料,具体为去除非中文字符,通过jieba分词的搜索引擎分词模式进行分词;
训练词向量模型,具体为使用预处理后的大语料训练神经网络语言模型的词向量,设置参数,并获取大语料中每个词的词向量。
3.根据权利要求1所述近义词筛选方法,其特征在于:所述步骤:获取候选近义词集合中,具体包括:
计算目标词的词向量和词向量模型里的其他词的词向量的余弦相似度,将余弦相似度降序排序,并输出余弦相似度在前N个词语组成候选近义词集合,所述N为正整数;
对所述候选近义词集合进行相似度阈值过滤和词性过滤,保留跟输入的目标词词性相同的词,作为候选近义词集。
4.根据权利要求1所述近义词筛选方法,其特征在于:所述步骤:更新近义词相似度,具体为:分别计算每个候选近义词集合的词语和其他候选近义词集合里全部词语的余弦相似度,取余弦相似度的平均值来更新目标词与该候选近义词的相似度。
5.根据权利要求1所述近义词筛选方法,其特征在于:所述步骤:筛选获得近义词列表,具体为:对候选近义词集合以更新后的余弦相似度降序排序,取余弦相似度在前N个词语或达到设定最小阈值的词语组成近义词列表,所述N为正整数。
6.一种近义词筛选系统,其特征在于:包括:
词向量训练模块,用于训练大语料词语的词向量;
近义词挖掘模块,用于挖掘大语料词语的近义词;所述近义词挖掘模块具体包括:
候选集合获取模块,用于获取候选近义词集合;
更新模块,用于更新近义词相似度;
筛选模块,用于筛选获得近义词列表。
7.根据权利要求6所述近义词筛选系统,其特征在于:所述词向量训练模块具体包括:
抓取模块,用于通过抓取各种题材文本数据作为大语料,包括各个领域的各种类型的数据;
预处理模块,用于去除非中文字符,通过jieba分词的搜索引擎分词模式进行分词;
训练模块,用于根据预处理后的大语料训练神经网络语言模型的词向量,设置参数,并获取大语料中每个词的词向量。
8.根据权利要求6所述近义词筛选系统,其特征在于:所述候选集合获取模块具体包括:
计算模块,用于计算目标词的词向量和词向量模型里的其他词的词向量的余弦相似度,将余弦相似度降序排序,并输出余弦相似度在前N个词语组成候选近义词集合,所述N为正整数;
过滤模块,用于对所述候选近义词集合进行相似度阈值过滤和词性过滤,保留跟输入的目标词词性相同的词,作为候选近义词集。
9.根据权利要求14所述近义词筛选系统,其特征在于:所述更新模块具体通过分别计算每个候选近义词集合的词语和其他候选近义词集合里全部词语的余弦相似度,取余弦相似度的平均值来更新目标词与该候选近义词的相似度。
10.根据权利要求15所述近义词筛选系统,其特征在于:所述筛选模块具体通过对候选近义词集合以更新后的余弦相似度降序排序,取余弦相似度在前N个词语或达到设定最小阈值的词语组成近义词列表,所述N为正整数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710719167.7A CN107451126B (zh) | 2017-08-21 | 2017-08-21 | 一种近义词筛选方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710719167.7A CN107451126B (zh) | 2017-08-21 | 2017-08-21 | 一种近义词筛选方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107451126A true CN107451126A (zh) | 2017-12-08 |
CN107451126B CN107451126B (zh) | 2020-07-28 |
Family
ID=60492895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710719167.7A Active CN107451126B (zh) | 2017-08-21 | 2017-08-21 | 一种近义词筛选方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107451126B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090169A (zh) * | 2017-12-14 | 2018-05-29 | 上海智臻智能网络科技股份有限公司 | 问句扩展方法及装置、存储介质、终端 |
CN108153735A (zh) * | 2017-12-28 | 2018-06-12 | 北京奇艺世纪科技有限公司 | 一种近义词的获取方法及系统 |
CN108255810A (zh) * | 2018-01-10 | 2018-07-06 | 北京神州泰岳软件股份有限公司 | 近义词挖掘方法、装置及电子设备 |
CN109213916A (zh) * | 2018-09-14 | 2019-01-15 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
CN109508414A (zh) * | 2018-11-13 | 2019-03-22 | 北京奇艺世纪科技有限公司 | 一种同义词挖掘方法及装置 |
CN109543175A (zh) * | 2018-10-11 | 2019-03-29 | 北京诺道认知医学科技有限公司 | 一种查找同义词的方法及装置 |
CN109977361A (zh) * | 2019-03-01 | 2019-07-05 | 广州多益网络股份有限公司 | 一种基于相似词的汉语拼音标注方法、装置及存储介质 |
CN110263347A (zh) * | 2019-06-26 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 一种同义词的构建方法及相关装置 |
CN110309280A (zh) * | 2019-05-27 | 2019-10-08 | 重庆小雨点小额贷款有限公司 | 一种语料扩容方法及相关设备 |
CN110377904A (zh) * | 2019-06-25 | 2019-10-25 | 厦门美域中央信息科技有限公司 | 一种基于语料库的近义词辨析方法 |
CN110427613A (zh) * | 2019-07-16 | 2019-11-08 | 深圳供电局有限公司 | 一种近义词发现方法及其系统、计算机可读存储介质 |
CN110688838A (zh) * | 2019-10-08 | 2020-01-14 | 北京金山数字娱乐科技有限公司 | 一种成语同义词列表的生成方法及装置 |
CN111078893A (zh) * | 2019-12-11 | 2020-04-28 | 竹间智能科技(上海)有限公司 | 一种大规模高效获取识别对话意图用语料的方法 |
CN111477216A (zh) * | 2020-04-09 | 2020-07-31 | 南京硅基智能科技有限公司 | 一种用于对话机器人的音意理解模型的训练方法及系统 |
CN112232065A (zh) * | 2020-10-29 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 挖掘同义词的方法及装置 |
CN112329455A (zh) * | 2020-11-06 | 2021-02-05 | 渤海大学 | 一种基于语料库的近义词辨析方法 |
CN112559711A (zh) * | 2020-12-23 | 2021-03-26 | 作业帮教育科技(北京)有限公司 | 一种同义文本提示方法、装置及电子设备 |
CN112632969A (zh) * | 2020-12-13 | 2021-04-09 | 复旦大学 | 一种增量式行业词典更新方法和系统 |
CN112784063A (zh) * | 2019-03-15 | 2021-05-11 | 北京金山数字娱乐科技有限公司 | 一种成语知识图谱构建方法及装置 |
CN114861638A (zh) * | 2022-06-10 | 2022-08-05 | 安徽工程大学 | 一种中文同义词扩展方法及装置 |
CN115238679A (zh) * | 2022-07-14 | 2022-10-25 | 腾讯科技(深圳)有限公司 | 同义词的挖掘方法、装置、计算机可读介质及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014002775A1 (ja) * | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
CN105868236A (zh) * | 2015-12-09 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 一种同义词数据挖掘方法和系统 |
CN106547740A (zh) * | 2016-11-24 | 2017-03-29 | 四川无声信息技术有限公司 | 文本信息处理方法及装置 |
CN106649783A (zh) * | 2016-12-28 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 一种同义词挖掘方法和装置 |
CN106649816A (zh) * | 2016-12-29 | 2017-05-10 | 北京奇虎科技有限公司 | 一种同义词的过滤方法及装置 |
CN106844571A (zh) * | 2017-01-03 | 2017-06-13 | 北京齐尔布莱特科技有限公司 | 识别同义词的方法、装置和计算设备 |
CN107066497A (zh) * | 2016-12-29 | 2017-08-18 | 努比亚技术有限公司 | 一种搜索方法和装置 |
-
2017
- 2017-08-21 CN CN201710719167.7A patent/CN107451126B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014002775A1 (ja) * | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
CN105868236A (zh) * | 2015-12-09 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 一种同义词数据挖掘方法和系统 |
CN106547740A (zh) * | 2016-11-24 | 2017-03-29 | 四川无声信息技术有限公司 | 文本信息处理方法及装置 |
CN106649783A (zh) * | 2016-12-28 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 一种同义词挖掘方法和装置 |
CN106649816A (zh) * | 2016-12-29 | 2017-05-10 | 北京奇虎科技有限公司 | 一种同义词的过滤方法及装置 |
CN107066497A (zh) * | 2016-12-29 | 2017-08-18 | 努比亚技术有限公司 | 一种搜索方法和装置 |
CN106844571A (zh) * | 2017-01-03 | 2017-06-13 | 北京齐尔布莱特科技有限公司 | 识别同义词的方法、装置和计算设备 |
Non-Patent Citations (5)
Title |
---|
LU YONG ; HOU HANQING: "Research on Automatic Acquiring of Chinese Synonyms from Wiki Repository", 《2008 IEEE/WIC/ACM INTERNATIONAL CONFERENCE ON WEB INTELLIGENCE AND INTELLIGENT AGENT TECHNOLOGY》 * |
X. CHEN, X. YANG AND B. SU: "A Fast Algorithm of Computing Word Similarity", 《2013 NINTH INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND SECURITY》 * |
唐歆瑜,乐文忠,李志成,李军: "基于知网语义相似度计算的特征降维方法研究", 《科学技术与工程》 * |
石静, 邱立坤, 王菲, 吴云芳: "相似词获取的集成方法", 《中国计算语言学研究前沿进展(2009-2011)》 * |
韩普,王东波,王子敏: "词汇相似度计算和相似词挖掘研究进展", 《情报科学》 * |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090169A (zh) * | 2017-12-14 | 2018-05-29 | 上海智臻智能网络科技股份有限公司 | 问句扩展方法及装置、存储介质、终端 |
CN108153735A (zh) * | 2017-12-28 | 2018-06-12 | 北京奇艺世纪科技有限公司 | 一种近义词的获取方法及系统 |
CN108153735B (zh) * | 2017-12-28 | 2021-05-18 | 北京奇艺世纪科技有限公司 | 一种近义词的获取方法及系统 |
CN108255810A (zh) * | 2018-01-10 | 2018-07-06 | 北京神州泰岳软件股份有限公司 | 近义词挖掘方法、装置及电子设备 |
CN108255810B (zh) * | 2018-01-10 | 2019-04-09 | 北京神州泰岳软件股份有限公司 | 近义词挖掘方法、装置及电子设备 |
CN109213916A (zh) * | 2018-09-14 | 2019-01-15 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
CN109543175A (zh) * | 2018-10-11 | 2019-03-29 | 北京诺道认知医学科技有限公司 | 一种查找同义词的方法及装置 |
CN109508414A (zh) * | 2018-11-13 | 2019-03-22 | 北京奇艺世纪科技有限公司 | 一种同义词挖掘方法及装置 |
CN109977361A (zh) * | 2019-03-01 | 2019-07-05 | 广州多益网络股份有限公司 | 一种基于相似词的汉语拼音标注方法、装置及存储介质 |
CN112784063A (zh) * | 2019-03-15 | 2021-05-11 | 北京金山数字娱乐科技有限公司 | 一种成语知识图谱构建方法及装置 |
CN110309280B (zh) * | 2019-05-27 | 2021-11-09 | 重庆小雨点小额贷款有限公司 | 一种语料扩容方法及相关设备 |
CN110309280A (zh) * | 2019-05-27 | 2019-10-08 | 重庆小雨点小额贷款有限公司 | 一种语料扩容方法及相关设备 |
CN110377904A (zh) * | 2019-06-25 | 2019-10-25 | 厦门美域中央信息科技有限公司 | 一种基于语料库的近义词辨析方法 |
CN110263347A (zh) * | 2019-06-26 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 一种同义词的构建方法及相关装置 |
CN110427613A (zh) * | 2019-07-16 | 2019-11-08 | 深圳供电局有限公司 | 一种近义词发现方法及其系统、计算机可读存储介质 |
CN110427613B (zh) * | 2019-07-16 | 2022-12-13 | 深圳供电局有限公司 | 一种近义词发现方法及其系统、计算机可读存储介质 |
CN110688838A (zh) * | 2019-10-08 | 2020-01-14 | 北京金山数字娱乐科技有限公司 | 一种成语同义词列表的生成方法及装置 |
CN111078893A (zh) * | 2019-12-11 | 2020-04-28 | 竹间智能科技(上海)有限公司 | 一种大规模高效获取识别对话意图用语料的方法 |
CN111477216A (zh) * | 2020-04-09 | 2020-07-31 | 南京硅基智能科技有限公司 | 一种用于对话机器人的音意理解模型的训练方法及系统 |
CN111477216B (zh) * | 2020-04-09 | 2024-02-23 | 南京硅基智能科技有限公司 | 一种用于对话机器人的音意理解模型的训练方法及系统 |
CN112232065A (zh) * | 2020-10-29 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 挖掘同义词的方法及装置 |
CN112232065B (zh) * | 2020-10-29 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 挖掘同义词的方法及装置 |
CN112329455A (zh) * | 2020-11-06 | 2021-02-05 | 渤海大学 | 一种基于语料库的近义词辨析方法 |
CN112632969A (zh) * | 2020-12-13 | 2021-04-09 | 复旦大学 | 一种增量式行业词典更新方法和系统 |
CN112632969B (zh) * | 2020-12-13 | 2022-06-21 | 复旦大学 | 一种增量式行业词典更新方法和系统 |
CN112559711A (zh) * | 2020-12-23 | 2021-03-26 | 作业帮教育科技(北京)有限公司 | 一种同义文本提示方法、装置及电子设备 |
CN114861638A (zh) * | 2022-06-10 | 2022-08-05 | 安徽工程大学 | 一种中文同义词扩展方法及装置 |
CN114861638B (zh) * | 2022-06-10 | 2024-05-24 | 安徽工程大学 | 一种中文同义词扩展方法及装置 |
CN115238679A (zh) * | 2022-07-14 | 2022-10-25 | 腾讯科技(深圳)有限公司 | 同义词的挖掘方法、装置、计算机可读介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN107451126B (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107451126A (zh) | 一种近义词筛选方法及系统 | |
CN106484664B (zh) | 一种短文本间相似度计算方法 | |
CN107463607B (zh) | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 | |
Plisson et al. | A rule based approach to word lemmatization | |
CN112214610B (zh) | 一种基于跨度和知识增强的实体关系联合抽取方法 | |
CN104268197B (zh) | 一种行业评论数据细粒度情感分析方法 | |
CN108763353B (zh) | 基于规则和远程监督的百度百科关系三元组抽取方法 | |
CN106372064B (zh) | 一种文本挖掘的特征词权重计算方法 | |
CN105550171B (zh) | 一种垂直搜索引擎的查询信息纠错方法和系统 | |
CN108874878A (zh) | 一种知识图谱的构建系统及方法 | |
CN107704892A (zh) | 一种基于贝叶斯模型的商品编码分类方法以及系统 | |
CN110059311A (zh) | 一种面向司法文本数据的关键词提取方法及系统 | |
CN107391614A (zh) | 一种基于wmd的中文问答匹配方法 | |
CN107862027A (zh) | 检索意图识别方法、装置、电子设备及可读存储介质 | |
CN106951438A (zh) | 一种面向开放域的事件抽取系统及方法 | |
CN107330007A (zh) | 一种基于多数据源的本体学习方法 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN106557777A (zh) | 一种基于SimHash改进的Kmeans聚类方法 | |
CN107194617A (zh) | 一种app软件工程师软技能分类系统及方法 | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN104699797A (zh) | 一种网页数据结构化解析方法和装置 | |
CN105224520A (zh) | 一种中文专利文献术语自动识别方法 | |
CN109299753A (zh) | 一种用于法律文本信息挖掘的集成学习方法及系统 | |
CN103246655A (zh) | 一种文本分类方法、装置及系统 | |
CN109918649A (zh) | 一种基于微博文本的自杀风险识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |