CN108363692B - 一种句子相似度的计算方法及基于该方法的舆情监督方法 - Google Patents
一种句子相似度的计算方法及基于该方法的舆情监督方法 Download PDFInfo
- Publication number
- CN108363692B CN108363692B CN201810148814.8A CN201810148814A CN108363692B CN 108363692 B CN108363692 B CN 108363692B CN 201810148814 A CN201810148814 A CN 201810148814A CN 108363692 B CN108363692 B CN 108363692B
- Authority
- CN
- China
- Prior art keywords
- sentence
- emotion
- similarity
- library
- short sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种句子相似度的计算方法及基于该方法的舆情监督方法,该方法包括:从互联网获取舆情事件语料,进行内容清洗后,将语料切分成短句;建立情绪语料库和情况语料库,将描述性短句放入情况库,表达情绪的短句放入情绪库,并根据情绪激烈程度对短句标注权重;将待识别长句切分成待识别短句,分别利用改进的句子相似度计算方法,计算其与情况库和情绪库中语料的相似度,确定长句情绪值;依照上述步骤依次对某一目标长句群进行识别,得到舆情事件所描述的诱因和情绪值分布。本发明的积极效果是:能够对细分领域舆情实现比较高的识别准确率,解决了相关技术中识别领域过于粗糙的问题。
Description
技术领域
本发明涉及一种文字处理方法,具体涉及一种句子相似度的计算方法及基于该方法的舆情监督方法。
背景技术
随着经济全球化及国际互联网的飞速发展,自然语言的翻译在促进政治、经济、文化交流等方面起到越来越重要的作用。过去在国际交流领域,人们需要对语言文字进行翻译时,需要采用人工翻译,耗时耗力,而随着计算机软硬件技术的高速发展,计算机翻译及计算机辅助翻译得到了越来越广泛的应用。对比句子相似度是研究计算机翻译和计算机辅助翻译中的重要课题,传统的对比方法多采用单一层次上的对比,比如词汇的重叠率、语言模型重叠率、词汇向量化用余弦定理在语义空间计算距离比较等等,但是这种单一层次的句子相似度对比方法无法针对各种语言特点做出合适的对比,比如适用于英语的对比方法不适用于汉语对比。同时单一层次的句子相似度对比方法无法针对各种场合用语的特点做出合适的对比,比如适用于新闻英语的对比方法不适用于口语英语的对比。
国家专利局专利号为CN201110303522.5的发明专利公开了一种计算句子相似度的方法和装置以及机器翻译的方法和装置,该专利对句子相似度对比的方法采用了词汇差异的对比方法,这种方法适用于词汇差异明显的语言和场合,在对词汇差异不明显而句型差异明显的语言和场合,对比效果较差。
发明内容
本发明所要解决的技术问题是现有的句子相似度计算方法只是将句中的每个词的向量累加起来作为句向量,单个词的特征被减弱,目的在于提供一种句子相似度的计算方法及基于该方法的舆情监督方法,解决现有的句子相似度计算方法只是将句中的每个词的向量累加起来作为句向量,单个词的特征被减弱的问题。
本发明通过下述技术方案实现:
一种句子相似度的计算方法,包括需要进行相似度判断的句子a和句子b,还包括依次进行的以下步骤:
A、从互联网上收集到的语料库,利用Word2Vec算法进行训练,建立模型,将语料库中的所有单词映射到向量空间;
B、对句子a和句子b进行分词处理,得到句子a的TextRank词组a[a1,a2,...,am]和句子 b的TextRank词组b[b1,b2,...,bn];
C、将两个词组中的所有单词去重后建立一个词列表c[C1,C2,...,Ct],以列表的长度t作为句子a和句子b对应的句向量的维数,结合词组a和词组b构建句向量a[v11,v12,...,v1t]和句向量b[v21,v22,...,v2t];
D、根据句向量a[v11,v12,...,v1t]和句向量b[v21,v22,...,v2t]计算两个句子的相似度sim(a,b)。
进一步的,所述步骤B中对句子a和句子b进行分词处理的方法采用Jieba中文分词工具中的TextRank方法。
进一步的,所述步骤C中,对句子a的句向量的每一维v1i,根据步骤A建立的模型,计算句子对应的词组中每一个单词aj与所述词列表中该位置的词Ci的相似度model(Ci,aj),在句向量中填入最大的一个相似度值,即v1i=min[model(Ci,aj)],其中1≤i≤t,1≤j≤m,相似度范围在0~1之间,值越大表明两单词越相似。
进一步的,所述步骤D中计算两个句子的相似度sim(a,b)的方法是:两个句子的相似度定义为两个句向量的内积归一化后的值,即可知,两个句子完全相同时,m=n=t,两个句向量是各维均为1的t维向量,相似度sim=1;两个句子中有意义的词相差极远时,t=m+n,两个句向量是各维均近似为0的t维向量,相似度sim≈0。
该方法包括:从互联网获取舆情事件语料,进行内容清洗后,将语料切分成短句;建立情绪语料计算句子相似度时,摒弃了简单粗暴地将词向量累加作为句向量的做法,改进了词袋模型BOW,以词的最大相似度作为句向量的元素,充分考虑了近义词的影响。
一种舆情监督方法,包括依次进行的以下步骤:
D、从互联网获取舆情事件语料,进行内容清洗后,将语料切分成短句;
E、建立情绪语料库和情况语料库,将描述性短句放入情况库,表达情绪的短句放入情绪库,并根据情绪激烈程度对短句标注权重,权重范围为-4~4,正数表示正面情绪,负数表示负面情绪,绝对值越大代表情绪越激烈;
F、将待识别长句切分成待识别短句,分别利用所述句子相似度计算方法,计算其与情况库和情绪库中语料的相似度,确定长句情绪值;
G、依照步骤F依次对某一目标长句群进行识别,得到舆情事件描述的诱因和情绪值分布。
所述步骤F中确定长句情绪值的方法如下:
F1、将所有待识别短句与情况库对比,如果待识别短句与库中短句相似度都小于阈值,则认为长句不表达舆情事件;否则,进入步骤F2;
F2、继续将所有待识别短句与情绪库对比,如果有库中短句与待识别短句相似度大于阈值,则累加该库中短句对应的权重;最后将累加得到的权重的算术平均值作为长句情绪值。
该方法包括:从互联网获取舆情事件语料,进行内容清洗后,将语料切分成短句;建立情绪语料库和情况语料库,将描述性短句放入情况库,表达情绪的短句放入情绪库,并根据情绪激烈程度对短句标注权重;将待识别长句切分成待识别短句,分别利用改进的句子相似度计算方法,计算其与情况库和情绪库中语料的相似度,确定长句情绪值;依照上述步骤依次对某一目标长句群进行识别,得到舆情事件所描述的诱因和情绪值分布。本发明的积极效果是:计算句子相似度时,摒弃了简单粗暴地将词向量累加作为句向量的做法,改进了词袋模型,以词的最大相似度作为句向量的元素,充分考虑了近义词的影响;准确区分舆情中事实描述部分和情绪宣泄部分,能及时从庞杂的信息中找到引发舆情的诱因,并给出整体情绪激烈程度;能够对细分领域舆情实现比较高的识别准确率,解决了相关技术中识别领域过于粗糙的问题。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明一种句子相似度的计算方法及基于该方法的舆情监督方法,以词的最大相似度作为句向量的元素,充分考虑了近义词的影响;
2、本发明一种句子相似度的计算方法及基于该方法的舆情监督方法,准确区分舆情中事实描述部分和情绪宣泄部分,能及时从庞杂的信息中找到引发舆情的诱因,并给出整体情绪激烈程度;
3、本发明一种句子相似度的计算方法及基于该方法的舆情监督方法,能够对细分领域舆情实现比较高的识别准确率,解决了相关技术中识别领域过于粗糙的问题。
附图说明
此处所说明的附图用来提供对本发明 实施例的进一步理解,构成本申请的一部分,并不构成对本发明 实施例的限定。在附图中:
图1为本发明句子相似度的计算示意图;
图2为本发明基于句子相似度的舆情监督示意图;
图3为本发明较长时期内的情绪值变化示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
如图1所示,本发明一种句子相似度的计算方法,包括需要进行相似度判断的句子a和句子b,还包括依次进行的以下步骤:
A、从互联网上收集到的语料库,利用Word2Vec算法进行训练,建立模型,将语料库中的所有单词映射到向量空间;
B、对句子a和句子b进行分词处理,得到句子a的TextRank词组a[a1,a2,...,am]和句子 b的TextRank词组b[b1,b2,...,bn];
C、将两个词组中的所有单词去重后建立一个词列表c[C1,C2,...,Ct],以列表的长度t作为句子a和句子b对应的句向量的维数,结合词组a和词组b构建句向量a[v11,v12,...,v1t]和句向量b[v21,v22,...,v2t];
D、根据句向量a[v11,v12,...,v1t]和句向量b[v21,v22,...,v2t]计算两个句子的相似度sim(a,b)。
进一步的,所述步骤B中对句子a和句子b进行分词处理的方法采用Jieba中文分词工具中的TextRank方法。
进一步的,所述步骤C中,对句子a的句向量的每一维v1i,根据步骤A建立的模型,计算句子对应的词组中每一个单词aj与所述词列表中该位置的词Ci的相似度model(Ci,aj),在句向量中填入最大的一个相似度值,即v1i=min[model(Ci,aj)],其中1≤i≤t,1≤j≤m,相似度范围在0~1之间,值越大表明两单词越相似。
进一步的,所述步骤D中计算两个句子的相似度sim(a,b)的方法是:两个句子的相似度定义为两个句向量的内积归一化后的值,即可知,两个句子完全相同时,m=n=t,两个句向量是各维均为1的t维向量,相似度sim=1;两个句子中有意义的词相差极远时,t=m+n,两个句向量是各维均近似为0的t维向量,相似度sim≈0。
该方法包括:从互联网获取舆情事件语料,进行内容清洗后,将语料切分成短句;建立情绪语料计算句子相似度时,摒弃了简单粗暴地将词向量累加作为句向量的做法,改进了词袋模型BOW,以词的最大相似度作为句向量的元素,充分考虑了近义词的影响。
实施例2
如图2所示,一种舆情监督方法,包括依次进行的以下步骤:
D、从互联网获取舆情事件语料,进行内容清洗后,将语料切分成短句;
E、建立情绪语料库和情况语料库,将描述性短句放入情况库,表达情绪的短句放入情绪库,并根据情绪激烈程度对短句标注权重,权重范围为-4~4,正数表示正面情绪,负数表示负面情绪,绝对值越大代表情绪越激烈;
F、将待识别长句切分成待识别短句,分别利用所述句子相似度计算方法,计算其与情况库和情绪库中语料的相似度,确定长句情绪值;
G、依照步骤F依次对某一目标长句群进行识别,得到舆情事件描述的诱因和情绪值分布。
所述步骤F中确定长句情绪值的方法如下:
F1、将所有待识别短句与情况库对比,如果待识别短句与库中短句相似度都小于阈值,则认为长句不表达舆情事件;否则,进入步骤F2;
F2、继续将所有待识别短句与情绪库对比,如果有库中短句与待识别短句相似度大于阈值,则累加该库中短句对应的权重;最后将累加得到的权重的算术平均值作为长句情绪值。
该方法包括:从互联网获取舆情事件语料,进行内容清洗后,将语料切分成短句;建立情绪语料库和情况语料库,将描述性短句放入情况库,表达情绪的短句放入情绪库,并根据情绪激烈程度对短句标注权重;将待识别长句切分成待识别短句,分别利用改进的句子相似度计算方法,计算其与情况库和情绪库中语料的相似度,确定长句情绪值;依照上述步骤依次对某一目标长句群进行识别,得到舆情事件所描述的诱因和情绪值分布。本发明的积极效果是:计算句子相似度时,摒弃了简单粗暴地将词向量累加作为句向量的做法,改进了词袋模型,以词的最大相似度作为句向量的元素,充分考虑了近义词的影响;准确区分舆情中事实描述部分和情绪宣泄部分,能及时从庞杂的信息中找到引发舆情的诱因,并给出整体情绪激烈程度;能够对细分领域舆情实现比较高的识别准确率,解决了相关技术中识别领域过于粗糙的问题。
实施例3
如图3所示,对于待识别长句“空气中那个臭鸡蛋的味道最近才知道是橡胶厂排放的臭气,特地查了相关的资料才真的也是屡次罚款未果,真是苦了这里的老百姓!!!”,清洗并切分后得到3个短句:短句1“那个臭鸡蛋的味道也是最近才知道是明治橡胶厂排放的臭气”、短句2“特地查了相关的资料才真的也是屡次罚款未果”、短句3“真是苦了这里的老百姓”。
短句1“空气中那个臭鸡蛋的味道最近才知道是橡胶厂排放的臭气”,其TextRank词组为['空气','橡胶厂','臭气','鸡蛋','味道','排放','最近','知道'],共8个词。
和情况库中的TextRank词组对比时,如遇到['刺鼻','味道','一股','空气'](原句为“空气中都有一股刺鼻的味道”),去重后得到的词列表为['空气','橡胶厂','臭气','鸡蛋','味道','排放 ','最近','知道','刺鼻','一股'],共10个词。
依所述步骤C,待识别短句的句向量为[1,1,1,1,1,1,1,1,0.78,0.54],其中前8维词语完全与 TextRank词组一致,所以为1,后2维为相似度最大的词的相似度。库中句子的句向量为 [1,0.31,0.75,0.21,1,0.24,0.18,0.19,1,1]。
依所述步骤D,计算出待识别句子与库中句子的相似度为0.52,大于经多次测试后得到的经验阈值0.38,因此认为待识别长句表达了与情况库对应的舆情事件。继续计算剩余两个短句与情况库的相似度,没有大于0.38的。
接着依次计算切分后的3个短句与情绪库中的相似度。
对短句2:其与情绪库中的1个句子相似度大于经验阈值0.38,因此情绪值为该句子的权重0.85.
综合整个计算过程以及情况库的标签,可以知道,长句“空气中那个臭鸡蛋的味道最近才知道是橡胶厂排放的臭气,特地查了相关的资料才真的也是屡次罚款未果,真是苦了这里的老百姓!!!”描述了一个污染情况,具体为“空气中那个臭鸡蛋的味道最近才知道是橡胶厂排放的臭气”,污染类型为空气污染;发言者对该情况的情绪值为2.64,属于负面情绪,较激动。
实施例4
通过实施例3所述方法,结合一组长句的识别结果,可以确定,发言者所在的地区发生了一起空气污染事件,引起了当地民众的不满。
对发言的来源进行回溯分析和持续监测,发现在过去比较长的一段时间内,针对此事件的讨论的情绪值一直在1.93到2.36之间,处于较高的水平,但上升趋势较小。符合感性认知,即该起空气污染已存在了很长时间,民众积怨已久,但未引起监管部门重视。
而当前监测情绪值已突破了2.50,说明民众的情绪已进入上升期。如果企业再不整改、监管部门继续无视,民众情绪就可能爆发,事态扩大。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种句子相似度的计算方法,包括需要进行相似度判断的句子a和句子b,其特征在于,还包括依次进行的以下步骤:
A、从互联网上收集到的语料库,利用Word2Vec算法进行训练,建立模型,将语料库中的所有单词映射到向量空间;
B、对句子a和句子b进行分词处理,得到句子a的TextRank词组a[a1,a2,...,am]和句子b的TextRank词组b[b1,b2,...,bn];
C、将两个词组中的所有单词去重后建立一个词列表c[C1,C2,...,Ct],以列表的长度t作为句子a和句子b对应的句向量的维数,结合词组a和词组b构建句向量a[v11,v12,...,v1t]和句向量b[v21,v22,...,v2t];
D、根据句向量a[v11,v12,...,v1t]和句向量b[v21,v22,...,v2t]计算两个句子的相似度sim(a,b);
所述步骤C中,对句子a的句向量的每一维v1i,根据步骤A建立的模型,计算句子对应的词组中每一个单词aj与所述词列表中该位置的词Ci的相似度model(Ci,aj),在句向量中填入最大的一个相似度值,即v1i=min[model(Ci,aj)],其中1≤i≤t,1≤j≤m,相似度范围在0~1之间,值越大表明两单词越相似。
2.根据权利要求1所述的一种句子相似度的计算方法,其特征在于,所述步骤B中对句子a和句子b进行分词处理的方法采用Jieba中文分词工具中的TextRank方法。
4.根据权利要求1所述的一种句子相似度的计算方法,其特征在于,包括依次进行的以下步骤:
D、从互联网获取舆情事件语料,进行内容清洗后,将语料切分成短句;
E、建立情绪语料库和情况语料库,将描述性短句放入情况库,表达情绪的短句放入情绪库,并根据情绪激烈程度对短句标注权重,权重范围为-4~4,正数表示正面情绪,负数表示负面情绪,绝对值越大代表情绪越激烈;
F、将待识别长句切分成待识别短句,分别利用所述句子相似度的计算方法,计算其与情况库和情绪库中语料的相似度,确定长句情绪值;
G、依照步骤F依次对某一目标长句群进行识别,得到舆情事件描述的诱因和情绪值分布。
5.根据权利要求4所述的一种句子相似度的计算方法,其特征在于,所述步骤F中确定长句情绪值的方法如下:
F1、将所有待识别短句与情况库对比,如果待识别短句与情况库中短句相似度都小于阈值,则认为长句不表达舆情事件;否则,进入步骤F2;
F2、继续将所有待识别短句与情绪库对比,如果有情绪库中短句与待识别短句相似度大于阈值,则累加该情绪库中短句对应的权重;最后将累加得到的权重的算术平均值作为长句情绪值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810148814.8A CN108363692B (zh) | 2018-02-13 | 2018-02-13 | 一种句子相似度的计算方法及基于该方法的舆情监督方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810148814.8A CN108363692B (zh) | 2018-02-13 | 2018-02-13 | 一种句子相似度的计算方法及基于该方法的舆情监督方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108363692A CN108363692A (zh) | 2018-08-03 |
CN108363692B true CN108363692B (zh) | 2021-04-02 |
Family
ID=63002639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810148814.8A Active CN108363692B (zh) | 2018-02-13 | 2018-02-13 | 一种句子相似度的计算方法及基于该方法的舆情监督方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108363692B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191469B (zh) * | 2019-12-17 | 2023-09-19 | 语联网(武汉)信息技术有限公司 | 大规模语料清洗对齐方法及装置 |
CN111191413B (zh) * | 2019-12-30 | 2021-11-12 | 北京航空航天大学 | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 |
CN111414765B (zh) * | 2020-03-20 | 2023-07-25 | 北京百度网讯科技有限公司 | 句子一致性的判定方法、装置、电子设备及可读存储介质 |
CN114722774B (zh) * | 2022-04-07 | 2024-01-30 | 平安科技(深圳)有限公司 | 数据压缩方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426354A (zh) * | 2015-10-29 | 2016-03-23 | 杭州九言科技股份有限公司 | 一种句向量的融合方法和装置 |
CN105488023A (zh) * | 2015-03-20 | 2016-04-13 | 广州爱九游信息技术有限公司 | 一种文本相似度评估方法及装置 |
CN107239439A (zh) * | 2017-04-19 | 2017-10-10 | 同济大学 | 基于word2vec的舆情倾向性分析方法 |
CN107436864A (zh) * | 2017-08-04 | 2017-12-05 | 逸途(北京)科技有限公司 | 一种基于Word2Vec的中文问答语义相似度计算方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591862A (zh) * | 2011-01-05 | 2012-07-18 | 华东师范大学 | 一种基于词共现的汉语实体关系提取的控制方法及装置 |
CN106021223B (zh) * | 2016-05-09 | 2020-06-23 | Tcl科技集团股份有限公司 | 一种句子相似度的计算方法及系统 |
CN106844331A (zh) * | 2016-12-13 | 2017-06-13 | 苏州大学 | 一种句子相似度计算方法和系统 |
-
2018
- 2018-02-13 CN CN201810148814.8A patent/CN108363692B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488023A (zh) * | 2015-03-20 | 2016-04-13 | 广州爱九游信息技术有限公司 | 一种文本相似度评估方法及装置 |
CN105426354A (zh) * | 2015-10-29 | 2016-03-23 | 杭州九言科技股份有限公司 | 一种句向量的融合方法和装置 |
CN107239439A (zh) * | 2017-04-19 | 2017-10-10 | 同济大学 | 基于word2vec的舆情倾向性分析方法 |
CN107436864A (zh) * | 2017-08-04 | 2017-12-05 | 逸途(北京)科技有限公司 | 一种基于Word2Vec的中文问答语义相似度计算方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108363692A (zh) | 2018-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363692B (zh) | 一种句子相似度的计算方法及基于该方法的舆情监督方法 | |
Creutz et al. | Inducing the morphological lexicon of a natural language from unannotated text | |
CN103268339B (zh) | 微博消息中命名实体识别方法及系统 | |
CN111125349A (zh) | 基于词频和语义的图模型文本摘要生成方法 | |
CN102201237B (zh) | 基于模糊支持向量机的可靠性检测的情感说话人识别方法 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
CN109492105B (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
CN103049501A (zh) | 基于互信息和条件随机场模型的中文领域术语识别方法 | |
CN110377695B (zh) | 一种舆情主题数据聚类方法、装置及存储介质 | |
CN110415071B (zh) | 一种基于观点挖掘分析的汽车竞品对比方法 | |
CN111128128B (zh) | 一种基于互补模型评分融合的语音关键词检测方法 | |
CN112380349A (zh) | 商品性别分类方法、装置及电子设备 | |
CN105374352A (zh) | 一种语音激活方法及系统 | |
CN109508460B (zh) | 基于主题聚类的无监督作文跑题检测方法及系统 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
Hillard et al. | Learning weighted entity lists from web click logs for spoken language understanding | |
CN111260428A (zh) | 一种商品推荐方法和装置 | |
CN108681532B (zh) | 一种面向中文微博的情感分析方法 | |
CN107451116B (zh) | 一种移动应用内生大数据统计分析方法 | |
CN114428854A (zh) | 一种基于长度归一化和主动学习的变长文本分类方法 | |
CN113298559A (zh) | 一种商品适用人群的推荐方法、系统、装置及存储介质 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN109298796B (zh) | 一种词联想方法及装置 | |
CN110929507B (zh) | 一种文本信息处理的方法、装置及存储介质 | |
Richards et al. | Using word burst analysis to rescore keyword search candidates on low-resource languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |