CN109492225A - 一种小语种国家的舆情信息文本处理方法 - Google Patents
一种小语种国家的舆情信息文本处理方法 Download PDFInfo
- Publication number
- CN109492225A CN109492225A CN201811327832.9A CN201811327832A CN109492225A CN 109492225 A CN109492225 A CN 109492225A CN 201811327832 A CN201811327832 A CN 201811327832A CN 109492225 A CN109492225 A CN 109492225A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- information
- foreign languages
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims abstract description 7
- 238000012544 monitoring process Methods 0.000 abstract description 6
- 238000004140 cleaning Methods 0.000 abstract description 4
- 238000001514 detection method Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种小语种国家的舆情信息文本处理方法。本发明方法,包括如下步骤:将小语种文本翻译为英文,再根据英文文本翻译为中文文本;基于隐马尔可夫模型对中文文本进行分词处理;对全部分词语料进行清洗,将不利于判断有效信息、重复出现的非语素词全部清洗掉;计算各个分词的词频逆文本词频值,将词频逆文本词频值低于设定阈值的非关键词删除,通过保留的词组建分析语料库。本发明可将舆情监测范围大大提高,沿线各小语种国家的信息都可被该模型进行实时监测分析。本发明将难以进行准备切分的新闻性文本,进行了高准确度的分词清洗。经人工检测后,非有效信息的出现率及有效信息的误排率都极低。
Description
技术领域
本发明涉及文本处理技术领域,具体而言,尤其涉及一种小语种国家的舆情信息文本处理方法。
背景技术
现有市面上对舆情信息的处理的方法,主要侧重于微博端或其他社交媒体端的用户发言及评论。其文本本身的体量小、结构简单。而对于小语种国家相关的政治经济类新闻文本,其文本的体量大、结构复杂,有效信息隐蔽。且市面上的舆情监测对象基本都为国内的社交媒体及自媒体。对于小语种国家的舆情进行监控是缺失的。
发明内容
根据上述提出的技术问题,而提供一种小语种国家的舆情信息文本处理方法。
本发明采用的技术手段如下:
一种小语种国家的舆情信息文本处理方法,包括如下步骤:
将小语种文本翻译为英文,再根据英文文本翻译为中文文本;
基于隐马尔可夫模型对中文文本进行分词处理;
对全部分词语料进行清洗,将不利于判断有效信息、重复出现的非语素词全部清洗掉;
计算各个分词的词频逆文本词频值,将词频逆文本词频值低于设定阈值的非关键词删除,通过保留的词组建分析语料库。
进一步地,所述隐马尔可夫模型具体表达式为:
P(xt|xt-1,xt-2,…,x1,y1,…,yt-1)=P(xt|xt-1)
其中,xt为t字本身的状态,xt-1为t字后面一字的状态,y1为x1所能组成的第一种词的状态。
进一步地,在分词处理过程中,优先将相关关键词汇进行分词,将相关关键词以字典的形式载入分词过程,并将关键词以优先级进行关键值赋值。
进一步地,所述计算各个分词的词频逆文本词频值具体为:
整体的tf-idf计算规则为:
其中,TF(w)表示各词在语料库的词频,I(w)表示信息查询中关键词的信息量,N表示整个语料库的大小,P(w)表示语料库中有效信息的逆文本信息量,M表示w语料所在的文章的全部集合。
较现有技术相比,本发明可将舆情监测范围大大提高,不仅可监测国内信息及国外英文信息源,“一带一路”沿线各小语种国家的信息都可被该模型进行实时监测分析。本发明将难以进行准备切分的新闻性文本,进行了高准确度的分词清洗。经人工检测后,非有效信息的出现率及有效信息的误排率都极低。
基于上述理由本发明可在文本处理领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种小语种国家的舆情信息文本处理方法流程图。
图2为本发明实施例中小语种国家舆情热词展示效果图。
图3为本发明实施例中关键词的优先度赋值效果图。
图4为本发明实施例中清洗词库部分词展示效果图。
图5为本发明实施例中热词的根据热度的排序结果图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示,本发明提供了一种小语种国家的舆情信息文本处理方法,包括如下步骤:
将小语种文本翻译为英文,再根据英文文本翻译为中文文本;
基于隐马尔可夫模型对中文文本进行分词处理;
对全部分词语料进行清洗,将不利于判断有效信息、重复出现的非语素词全部清洗掉;
计算各个分词的词频逆文本词频值,将词频逆文本词频值低于设定阈值的非关键词删除,通过保留的词组建分析语料库。
所述隐马尔可夫模型具体表达式为:
P(xt|xt-1,xt-2,…,x1,y1,…,yt-1)=P(xt|xt-1)
其中,xt为t字本身的状态,xt-1为t字后面一字的状态,y1为x1所能组成的第一种词的状态。
在分词处理过程中,优先将相关关键词汇进行分词,将相关关键词以字典的形式载入分词过程,并将关键词以优先级进行关键值赋值。
所述计算各个分词的词频逆文本词频值具体为:
整体的tf-idf计算规则为:
其中,TF(w)表示各词在语料库的词频,I(w)表示信息查询中关键词的信息量,N表示整个语料库的大小,P(w)表示语料库中有效信息的逆文本信息量,M表示w语料所在的文章的全部集合。
实施例1
如图2所示,根据本发明所提出的方法,对“一带一路”沿线国家的舆情信息进行实时监测及文本处理。可实时提取文本中的有效语素,为后续的舆情信息深入数据挖掘如情感分析或热点识别提供优质的数据基础,大大提高舆情文本中提取有效信息的效率及准确度。且根据文本中各词的tf-idf值,即可得到舆情信息的热词结果,附图即为某天“一带一路”沿线国家的舆情热词展示。
实施例2
如图3所示,为本实施例分词处理中的各关键词的优先度赋值过程,如图4所示,为本实施例清洗过程中的清洗词库中的若干词,如图5所示,为剔除低于设定阈值的非关键词后的热词热度排序结果图,可以直观地实时了解热词的热度。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (4)
1.一种小语种国家的舆情信息文本处理方法,其特征在于,包括如下步骤:
将小语种文本翻译为英文,再根据英文文本翻译为中文文本;
基于隐马尔可夫模型对中文文本进行分词处理;
对全部分词语料进行清洗,将不利于判断有效信息、重复出现的非语素词全部清洗掉;
计算各个分词的词频逆文本词频值,将词频逆文本词频值低于设定阈值的非关键词删除,通过保留的词组建分析语料库。
2.根据权利要求1所述的小语种国家的舆情信息文本处理方法,其特征在于,所述隐马尔可夫模型具体表达式为:
P(xt|xt-1,xt-2,…,x1,y1,…,yt-1)=P(xt|xt-1)
其中,xt为t字本身的状态,xt-1为t字后面一字的状态,y1为x1所能组成的第一种词的状态。
3.根据权利要求1或2所述的小语种国家的舆情信息文本处理方法,其特征在于,在分词处理过程中,优先将相关关键词汇进行分词,将相关关键词以字典的形式载入分词过程,并将关键词以优先级进行关键值赋值。
4.根据权利要求3所述的小语种国家的舆情信息文本处理方法,其特征在于,所述计算各个分词的词频逆文本词频值具体为:
整体的tf-idf计算规则为:
其中,TF(w)表示各词在语料库的词频,I(w)表示信息查询中关键词的信息量,N表示整个语料库的大小,P(w)表示语料库中有效信息的逆文本信息量,M表示w语料所在的文章的全部集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811327832.9A CN109492225A (zh) | 2018-11-08 | 2018-11-08 | 一种小语种国家的舆情信息文本处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811327832.9A CN109492225A (zh) | 2018-11-08 | 2018-11-08 | 一种小语种国家的舆情信息文本处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109492225A true CN109492225A (zh) | 2019-03-19 |
Family
ID=65694222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811327832.9A Pending CN109492225A (zh) | 2018-11-08 | 2018-11-08 | 一种小语种国家的舆情信息文本处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492225A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210030A (zh) * | 2019-05-31 | 2019-09-06 | 三角兽(北京)科技有限公司 | 语句分析的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110301939A1 (en) * | 2004-09-30 | 2011-12-08 | Google Inc. | Methods and systems for selecting a language for text segmentation |
CN107153658A (zh) * | 2016-03-03 | 2017-09-12 | 常州普适信息科技有限公司 | 一种基于关键字加权算法的舆情热词发现方法 |
CN108108454A (zh) * | 2017-12-28 | 2018-06-01 | 中译语通科技(青岛)有限公司 | 一种基于多语种舆情分析的旅游大数据系统 |
CN108363694A (zh) * | 2018-02-23 | 2018-08-03 | 北京窝头网络科技有限公司 | 关键词提取方法及装置 |
-
2018
- 2018-11-08 CN CN201811327832.9A patent/CN109492225A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110301939A1 (en) * | 2004-09-30 | 2011-12-08 | Google Inc. | Methods and systems for selecting a language for text segmentation |
CN107153658A (zh) * | 2016-03-03 | 2017-09-12 | 常州普适信息科技有限公司 | 一种基于关键字加权算法的舆情热词发现方法 |
CN108108454A (zh) * | 2017-12-28 | 2018-06-01 | 中译语通科技(青岛)有限公司 | 一种基于多语种舆情分析的旅游大数据系统 |
CN108363694A (zh) * | 2018-02-23 | 2018-08-03 | 北京窝头网络科技有限公司 | 关键词提取方法及装置 |
Non-Patent Citations (2)
Title |
---|
朱磊: "《热点事件舆情调查研究 3 华人华侨篇》", 30 June 2015, 经济日报出版社 * |
程妤: "《来华留学生视野下的"一带一路"倡议》", 30 April 2017, 同济大学出版社 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210030A (zh) * | 2019-05-31 | 2019-09-06 | 三角兽(北京)科技有限公司 | 语句分析的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106156365B (zh) | 一种知识图谱的生成方法及装置 | |
Mihalcea | Language independent extractive summarization | |
CN112131863B (zh) | 一种评论观点主题抽取方法、电子设备及存储介质 | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN111400432B (zh) | 事件类型信息处理方法、事件类型识别方法及装置 | |
CN111444330A (zh) | 提取短文本关键词的方法、装置、设备及存储介质 | |
CN106897439A (zh) | 文本的情感识别方法、装置、服务器以及存储介质 | |
CN111460170B (zh) | 一种词语识别方法、装置、终端设备及存储介质 | |
CN109948140B (zh) | 一种词向量嵌入方法及装置 | |
CN107145516A (zh) | 一种文本聚类方法及系统 | |
CN109726402B (zh) | 一种文档主题词自动提取方法 | |
CN109657064A (zh) | 一种文本分类方法及装置 | |
CN105159927B (zh) | 目标文本主题词的选取方法、装置及终端 | |
CN106569996B (zh) | 一种面向中文微博的情感倾向分析方法 | |
CN107688630A (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
Brantner et al. | Content analysis of Twitter: Big data, big studies | |
CN110674301A (zh) | 一种情感倾向预测方法、装置、系统及存储介质 | |
CN107861945A (zh) | 金融数据分析方法、应用服务器及计算机可读存储介质 | |
CN102063497B (zh) | 一种开放式知识共享平台及其词条处理方法 | |
CN109543002B (zh) | 简写字符的还原方法、装置、设备及存储介质 | |
CN109492225A (zh) | 一种小语种国家的舆情信息文本处理方法 | |
CN114036938A (zh) | 一种融合主题信息和词向量提取文本特征的新闻分类方法 | |
CN110162794A (zh) | 一种分词的方法及服务器 | |
Packiam et al. | A Novel Integrated Framework Based on Modular Optimization for Efficient Analytics on Twitter Big Data | |
CN111667306A (zh) | 面向定制化生产的客户需求识别方法、系统及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190319 |
|
RJ01 | Rejection of invention patent application after publication |