CN107291952B - 一种提取有意义串的方法及装置 - Google Patents
一种提取有意义串的方法及装置 Download PDFInfo
- Publication number
- CN107291952B CN107291952B CN201710627611.2A CN201710627611A CN107291952B CN 107291952 B CN107291952 B CN 107291952B CN 201710627611 A CN201710627611 A CN 201710627611A CN 107291952 B CN107291952 B CN 107291952B
- Authority
- CN
- China
- Prior art keywords
- module
- meaningful
- string
- strings
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种提取有意义串的方法,包括以下步骤:获取原始语料并进行处理;提取重复串;对重复串的前后缀进行匹配;过滤噪声,生成有意义串;将有意义串进行匹配,获取匹配度最高的有意义串。相比于现有技术,本发明通过提取粗粒度的有意义串,匹配出话题的关键句,可以让使用者在进行舆情分析的时候,更快速更准确地挖掘出当前发生的热点话题,从而制定相应的决策,引导舆论的发展。另外,本发明还提供了一种用于实现上述方法的提取有意义串的装置。
Description
技术领域
本发明涉及人工智能领域,特别是一种提取有意义串的方法及装置。
背景技术
在舆情分析和话题挖掘中,模型的话题输出形式的粒度往往都是词语级,需要使用者作进一步的归纳总结,同时带有较强的主观色彩,容易产生歧义。
现有技术中,在进行舆情分析时,挖掘热点话题的流程一般如下:
1)对网络上抓取到的非结构化文本信息进行预处理;
2)把预处理后的语料进行词向量化,映射到高维特征空间;
3)将代表语料的特征进行话题聚类,得到若干个话题;
4)从每个话题中,各自输出Top N个词语。
然而,现有技术仍然存在以下的缺点和不足:
话题的输出粒度是词语级,一个词语所包含的信息量比较少,而且词语之间的关系不明确,词语的词性也没有清晰地标注出来,当使用者对同一话题的词语作归纳总结时,不能够客观地理解话题的实际内容,容易造成歧义,对网络舆情的判断出现偏差。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供了一种提取有意义串的方法及装置。
本发明通过以下的方案实现:一种提取有意义串的方法,包括以下步骤:
获取原始语料并进行处理;
提取重复串;
对重复串的前后缀进行匹配;
计算紧密度,若紧密度大于阈值,则将前缀、后缀和重复串进行连接,构成一个有意义串,否则,进行过滤;所述紧密度为前缀、后缀的词频除以对应重复串的词频;
通过textrank技术,计算每一篇文章的关键句,并抽取所有文章的标题;
把关键句和标题存入数据库中,用抽取到的有意义串在所有关键句和标题中进行检索匹配;
根据匹配数进行排序,获取匹配度最高的有意义串,并将该有意义串代表的话题进行展现。
作为本发明的进一步改进,所述步骤:获取原始语料并进行处理中,具体包括:
从网络抓取需要进行分析的文本;
对非结构化的文本进行预处理和词向量化;
根据所述向量对网页进行聚类;
将同一话题的原始语料集中到同一个文档中并进行分词。
作为本发明的进一步改进,所述步骤:提取重复串中,具体包括:
依次导入同一话题且已预先分词的语料;
统计非停用词的词频,并对语料中围绕在所述非停用词前后的词语,并分别赋予一个ID;
对非停用词的词频进行判断,若词频小于阈值的,则过滤,否则认定为重复串。
作为本发明的进一步改进,所述步骤:对重复串的前后缀进行匹配中,具体包括:
对重复串进行遍历;
根据记录好的前缀ID和后缀ID,依次统计重复串前缀和后缀同一词语出现的频率。
本发明还提供了一种提取有意义串的装置,其包括
语料获取处理模块,用于获取原始语料并进行处理;
提取模块,用于提取重复串;
前后缀匹配模块,用于对重复串的前后缀进行匹配;
紧度度计算判断模块,用于计算紧密度,若紧密度大于阈值,则将前缀、后缀和重复串进行连接,构成一个有意义串,否则,进行过滤;所述紧密度为前缀、后缀的词频除以对应重复串的词频;
抽取模块,用于通过textrank技术,计算每一篇文章的关键句,并抽取所有文章的标题;
关键句和标题匹配模块,用于把关键句和标题存入数据库中,用抽取到的有意义串在所有关键句和标题中进行检索匹配;
排序模块,用于根据匹配数进行排序,获取匹配度最高的有意义串,并将该有意义串代表的话题进行展现。
作为本发明的进一步改进,所述语料获取处理模块,包括:
抓取模块,用于从网络抓取需要进行分析的文本;
预处理模块,用于对非结构化的文本进行预处理和词向量化;
聚类模块,用于根据所述向量对网页进行聚类;
分词模块,用于将同一话题的原始语料集中到同一个文档中并进行分词。
作为本发明的进一步改进,所述提取模块中,具体包括:
导入模块,用于依次导入同一话题且已预先分词的语料;
非停用词统计模块,用于统计非停用词的词频,并对语料中围绕在所述非停用词前后的词语,并分别赋予一个ID;
词频判断模块,用于对非停用词的词频进行判断,若词频小于阈值的,则过滤,否则认定为重复串。
作为本发明的进一步改进,所述前后缀匹配模块,包括:
遍历模块,用于对重复串进行遍历;
前后缀统计模块,用于根据记录好的前缀ID和后缀ID,依次统计重复串前缀和后缀同一词语出现的频率。
相比于现有技术,本发明通过提取粗粒度的有意义串,匹配出话题的关键句,可以让使用者在进行舆情分析的时候,更快速更准确地挖掘出当前发生的热点话题,从而制定相应的决策,引导舆论的发展。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1是本发明的提取有意义串的方法的步骤流程图。
图2是本发明的步骤S1的具体步骤流程图。
图3是本发明的步骤S2的步骤流程图。
图4是本发明的步骤S3的步骤流程图。
图5是本发明的步骤S5的步骤流程图。
图6是本发明的提取有意义串的装置的模块连接框图。
具体实施方式
以下结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
请参阅图1,其为本发明的提取有意义串的方法的步骤流程图。本发明提供了一种提取有意义串的方法,包括以下步骤:
S1:获取原始语料并进行处理。
进一步,请参阅图2,其为本发明的步骤S1的具体步骤流程图。所述步骤S1中具体包括:
S11:从网络抓取需要进行分析的文本。
S12:对非结构化的文本进行预处理和词向量化。
S13:根据所述向量对网页进行聚类。
S14:将同一话题的原始语料集中到同一个文档中并进行分词。
在本步骤S1中,因为网络热点信息一般抓取整个网页,所以预处理部分为去除页面的广告得到正文。再把正文分词进行词向量化,根据这些向量就可以对网页进行聚类。在本实施例中采用k-means算法进行聚类,聚类之后,用人工定义的类别去去除每一天都经常出现的类别,因为这些类别虽然网页数量很多,但是并不是热点。接着,在剩下的类别中,将同一话题的原始语料集中到同一个文档中并进行分词,并开始计算重复串。
S2:提取重复串。
进一步请参阅图3,其为本发明的步骤S2的步骤流程图。所述步骤S2中具体包括:
S21:依次导入同一话题且已预先分词的语料。
S22:统计非停用词的词频,并对语料中围绕在所述非停用词前后的词语,并分别赋予一个ID。
S23:对非停用词的词频进行判断,若词频小于阈值的,则过滤,否则认定为重复串。
在本步骤S2中,首先依次导入同一话题且已预先分词的语料。为减小模型的时间复杂度,只统计非停用词的词频,然后,对非停用词的词频进行判断,若词频小于阈值的,则过滤,否则认定为重复串。并对语料中,围绕在词语前后的词语,赋予一个ID。例如,当词为“资产”“工商业”‘重组’等词大量出现的时候,认定为这些词是挖掘处理的重复串。
S3:对重复串的前后缀进行匹配。
进一步,请参阅图图4,其为本发明的步骤S3的步骤流程图。所述步骤S3中具体包括:
S31:对重复串进行遍历。
S32:根据记录好的前缀ID和后缀ID,依次统计重复串前缀和后缀同一词语出现的频率。
在本步骤S3中,首先对步骤S2中得到的重复串进行遍历。然后,根据先前记录好的前(后)缀id,依次统计重复串前(后)缀同一词语出现的频率,其中,同一词语对于不同的重复串有不同的id,同一重复串有多个前(后)缀词语。由于记录了重复串的前(后)缀id,在统计词频时,只需在有前后串ID的文本间搜索,无需对整个语料进行遍历,所以大大减少了统计词频的时间。
S4:过滤噪声,生成有意义串。
所述步骤S4中具体为:计算紧密度,若紧密度大于阈值,则将前缀、后缀和重复串进行连接,构成一个有意义串,否则,进行过滤;所述紧密度为前缀、后缀的词频除以对应重复串的词频。
在本步骤S4中,首先,计算紧密度,若紧密度大于阈值,则将前(后)缀和重复串进行连接,构成一个有意义串,否则,过滤。定义紧密度为前(后)缀的词频除以对应重复串的词频,紧密度越接近1,说明这两个词语的稳定性越强,但考虑到有意义串内的词语有可能会出现在语料中其他的地方,所以设定这个阈值小于1。通过这个方法,就可以把类似‘资产重组’这样的稳定词语合并为有意义串,而“工商业重组”这种合并密度不足,不够稳定的组合,会被过滤。
S5:将有意义串进行匹配,获取匹配度最高的有意义串。
进一步请参阅图5,其为本发明的步骤S5的步骤流程图。所述步骤S5中具体包括:
S51:通过textrank技术,计算每一篇文章的关键句,并抽取所有文章的标题。
S52:把关键句和标题存入数据库中,用抽取到的有意义串在所有关键句和标题中进行检索匹配。
S53:根据匹配数进行排序,获取匹配度最高的有意义串,并将该有意义串代表的话题进行展现。
在本步骤S5中,通过textrank技术,对每一篇文章计算该文章的关键句。抽取所有文章的标题。把关键句和标题存入数据库中,用抽取到的有意义串在所有关键句中进行检索匹配。并根据匹配数排序。获取匹配分数最高的一句,作为该有意义串所代表的话题展现。
通过本发明的提取有意义串的方法,可以实现对大规模网页及聊天数据进行热点挖掘。例如,当有一万篇文章或者百万级的聊天话题日志时,如何挖掘出这么多文章及聊天话题中什么是当前讨论得最热门的。如果通过现有的LDA技术,虽然可以得到很多话题的关键词,但是依然无法获得这些词语究竟在表达什么样的内容及信息。
因此,本发明把词这种依然无法表达健全内容的单位,转变为更长的短句,并把重要的热点信息挖掘出来。
另外,本发明还提供了一种用于实现上述方法的提取有意义串的装置。请同时参阅图6,其为本发明的提取有意义串的装置的模块连接框图。本发明还提供了一种提取有意义串的装置,其包括语料获取处理模块1、提取模块2、前后缀匹配模块3、噪声过滤模块4和有意义串匹配模块5。
所述语料获取处理模块1,用于获取原始语料并进行处理。
所述提取模块2,用于提取重复串。
所述前后缀匹配模块3,用于对重复串的前后缀进行匹配。
所述噪声过滤模块4,用于过滤噪声,生成有意义串;
所述有意义串匹配模块5,用于将有意义串进行匹配,获取匹配度最高的有意义串。
进一步,所述语料获取处理模块1,包括:抓取模块11、预处理模块12、聚类模块13和分词模块14。
所述抓取模块11,用于从网络抓取需要进行分析的文本;
所述预处理模块12,用于对非结构化的文本进行预处理和词向量化;
所述聚类模块13,用于根据所述向量对网页进行聚类;
所述分词模块14,用于将同一话题的原始语料集中到同一个文档中并进行分词。
进一步,所述提取模块2中,具体包括:导入模块21、非停用词统计模块22和词频判断模块23。
所述导入模块21,用于依次导入同一话题且已预先分词的语料;
所述非停用词统计模块22,用于统计非停用词的词频,并对语料中围绕在所述非停用词前后的词语,并分别赋予一个ID;
所述词频判断模块23,用于对非停用词的词频进行判断,若词频小于阈值的,则过滤,否则认定为重复串。
进一步,所述前后缀匹配模块3,包括:遍历模块31和前后缀统计模块32。
所述遍历模块31,用于对重复串进行遍历;
所述前后缀统计模块32,用于根据记录好的前缀ID和后缀ID,依次统计重复串前缀和后缀同一词语出现的频率。
进一步,所述噪声过滤模块4具体包括:紧度度计算判断模块41,用于计算紧密度,若紧密度大于阈值,则将前缀、后缀和重复串进行连接,构成一个有意义串,否则,进行过滤;所述紧密度为前缀、后缀的词频除以对应重复串的词频。
进一步,所述有意义串匹配模块5,包括:抽取模块51、关键句和标题匹配模块52和排序模块53。
所述抽取模块51,用于通过textrank技术,计算每一篇文章的关键句,并抽取所有文章的标题;
所述关键句和标题匹配模块52,用于把关键句和标题存入数据库中,用抽取到的有意义串在所有关键句和标题中进行检索匹配;
所述排序模块53,用于根据匹配数进行排序,获取匹配度最高的有意义串,并将该有意义串代表的话题进行展现。
本发明的提取有意义串的装置与上述方法的原理相同,这里故不赘述。
综上,相比于现有技术,本发明通过提取粗粒度的有意义串,匹配出话题的关键句,可以让使用者在进行舆情分析的时候,更快速更准确地挖掘出当前发生的热点话题,从而制定相应的决策,引导舆论的发展。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (8)
1.一种提取有意义串的方法,其特征在于:包括以下步骤:
获取原始语料并进行处理;
提取重复串;
对重复串的前后缀进行匹配;
计算紧密度,若紧密度大于阈值,则将前缀、后缀和重复串进行连接,构成一个有意义串,否则,进行过滤;所述紧密度为前缀、后缀的词频除以对应重复串的词频;
通过textrank技术,计算每一篇文章的关键句,并抽取所有文章的标题;
把关键句和标题存入数据库中,用抽取到的有意义串在所有关键句和标题中进行检索匹配;
根据匹配数进行排序,获取匹配度最高的有意义串,并将该有意义串代表的话题进行展现。
2.根据权利要求1所述提取有意义串的方法,其特征在于:所述步骤:获取原始语料并进行处理中,具体包括:
从网络抓取需要进行分析的文本;
对非结构化的文本进行预处理和词向量化;
根据所述向量对网页进行聚类;
将同一话题的原始语料集中到同一个文档中并进行分词。
3.根据权利要求1所述提取有意义串的方法,其特征在于:所述步骤:提取重复串中,具体包括:
依次导入同一话题且已预先分词的语料;
统计非停用词的词频,并对语料中围绕在所述非停用词前后的词语,并分别赋予一个ID;
对非停用词的词频进行判断,若词频小于阈值的,则过滤,否则认定为重复串。
4.根据权利要求3所述提取有意义串的方法,其特征在于:所述步骤:对重复串的前后缀进行匹配中,具体包括:
对重复串进行遍历;
根据记录好的前缀ID和后缀ID,依次统计重复串前缀和后缀同一词语出现的频率。
5.一种提取有意义串的装置,其特征在于:包括
语料获取处理模块,用于获取原始语料并进行处理;
提取模块,用于提取重复串;
前后缀匹配模块,用于对重复串的前后缀进行匹配;
紧度度计算判断模块,用于计算紧密度,若紧密度大于阈值,则将前缀、后缀和重复串进行连接,构成一个有意义串,否则,进行过滤;所述紧密度为前缀、后缀的词频除以对应重复串的词频;
抽取模块,用于通过textrank技术,计算每一篇文章的关键句,并抽取所有文章的标题;
关键句和标题匹配模块,用于把关键句和标题存入数据库中,用抽取到的有意义串在所有关键句和标题中进行检索匹配;
排序模块,用于根据匹配数进行排序,获取匹配度最高的有意义串,并将该有意义串代表的话题进行展现。
6.根据权利要求5所述提取有意义串的装置,其特征在于:所述语料获取处理模块,包括:
抓取模块,用于从网络抓取需要进行分析的文本;
预处理模块,用于对非结构化的文本进行预处理和词向量化;
聚类模块,用于根据所述向量对网页进行聚类;
分词模块,用于将同一话题的原始语料集中到同一个文档中并进行分词。
7.根据权利要求5所述提取有意义串的装置,其特征在于:所述提取模块中,具体包括:
导入模块,用于依次导入同一话题且已预先分词的语料;
非停用词统计模块,用于统计非停用词的词频,并对语料中围绕在所述非停用词前后的词语,并分别赋予一个ID;
词频判断模块,用于对非停用词的词频进行判断,若词频小于阈值的,则过滤,否则认定为重复串。
8.根据权利要求7所述提取有意义串的装置,其特征在于:所述前后缀匹配模块,包括:
遍历模块,用于对重复串进行遍历;
前后缀统计模块,用于根据记录好的前缀ID和后缀ID,依次统计重复串前缀和后缀同一词语出现的频率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710627611.2A CN107291952B (zh) | 2017-07-28 | 2017-07-28 | 一种提取有意义串的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710627611.2A CN107291952B (zh) | 2017-07-28 | 2017-07-28 | 一种提取有意义串的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107291952A CN107291952A (zh) | 2017-10-24 |
CN107291952B true CN107291952B (zh) | 2020-05-19 |
Family
ID=60103606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710627611.2A Active CN107291952B (zh) | 2017-07-28 | 2017-07-28 | 一种提取有意义串的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107291952B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033064B (zh) * | 2018-05-31 | 2022-06-28 | 华中师范大学 | 一种基于文本摘要的小学语文作文语料标签自动提取方法 |
CN108932296B (zh) * | 2018-05-31 | 2021-06-11 | 华中师范大学 | 一种基于关联数据的小学语文作文素材结构化存储方法与装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101131705A (zh) * | 2007-09-27 | 2008-02-27 | 中国科学院计算技术研究所 | 一种新词发现方法和系统 |
CN101149739A (zh) * | 2007-08-24 | 2008-03-26 | 中国科学院计算技术研究所 | 一种面向互联网的有意义串的挖掘方法和系统 |
CN101334773A (zh) * | 2007-06-28 | 2008-12-31 | 联想(北京)有限公司 | 一种过滤搜索引擎查询结果的方法 |
CN101794308A (zh) * | 2010-03-04 | 2010-08-04 | 哈尔滨工程大学 | 一种面向有意义串挖掘的重复串提取方法及装置 |
CN106294333A (zh) * | 2015-05-11 | 2017-01-04 | 国家计算机网络与信息安全管理中心 | 一种微博突发话题检测方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8312034B2 (en) * | 2005-06-24 | 2012-11-13 | Purediscovery Corporation | Concept bridge and method of operating the same |
-
2017
- 2017-07-28 CN CN201710627611.2A patent/CN107291952B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101334773A (zh) * | 2007-06-28 | 2008-12-31 | 联想(北京)有限公司 | 一种过滤搜索引擎查询结果的方法 |
CN101149739A (zh) * | 2007-08-24 | 2008-03-26 | 中国科学院计算技术研究所 | 一种面向互联网的有意义串的挖掘方法和系统 |
CN101131705A (zh) * | 2007-09-27 | 2008-02-27 | 中国科学院计算技术研究所 | 一种新词发现方法和系统 |
CN101794308A (zh) * | 2010-03-04 | 2010-08-04 | 哈尔滨工程大学 | 一种面向有意义串挖掘的重复串提取方法及装置 |
CN106294333A (zh) * | 2015-05-11 | 2017-01-04 | 国家计算机网络与信息安全管理中心 | 一种微博突发话题检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107291952A (zh) | 2017-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189901B (zh) | 一种智能客服系统中自动发现新分类以及对应语料的方法 | |
CN107451126B (zh) | 一种近义词筛选方法及系统 | |
CN106202561B (zh) | 基于文本大数据的数字化应急管理案例库构建方法及装置 | |
US20060206306A1 (en) | Text mining apparatus and associated methods | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN104504150A (zh) | 新闻舆情监测系统 | |
CN112699246A (zh) | 基于知识图谱的领域知识推送方法 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN105279277A (zh) | 知识数据的处理方法和装置 | |
CN110413998B (zh) | 一种面向电力行业的自适应中文分词方法及其系统、介质 | |
CN111191022A (zh) | 商品短标题生成方法及装置 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN106844482B (zh) | 一种基于搜索引擎的检索信息匹配方法及装置 | |
CN107526721B (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
CN111078979A (zh) | 一种基于ocr和文本处理技术识别网贷网站的方法及系统 | |
CN112149422B (zh) | 一种基于自然语言的企业新闻动态监测方法 | |
CN113486664A (zh) | 文本数据可视化分析方法、装置、设备及存储介质 | |
CN115238154A (zh) | 搜索引擎优化系统 | |
CN107291952B (zh) | 一种提取有意义串的方法及装置 | |
Rigaud et al. | What do we expect from comic panel extraction? | |
CN108399238A (zh) | 一种融合文本概念化和网络表示的观点检索系统及方法 | |
CN106372083B (zh) | 一种有争议性新闻线索自动发现的方法及系统 | |
CN101673263B (zh) | 视频内容的搜索方法 | |
CN102722526B (zh) | 基于词性分类统计的重复网页和近似网页的识别方法 | |
CN112380412A (zh) | 一种基于大数据的筛选匹配信息的优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |