CN109492225A

CN109492225A - 一种小语种国家的舆情信息文本处理方法

Info

Publication number: CN109492225A
Application number: CN201811327832.9A
Authority: CN
Inventors: 童友俊
Original assignee: Dalian Hanwen Information Co ltd
Current assignee: Dalian Hanwen Information Co ltd
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2019-03-19

Abstract

本发明提供一种小语种国家的舆情信息文本处理方法。本发明方法，包括如下步骤：将小语种文本翻译为英文，再根据英文文本翻译为中文文本；基于隐马尔可夫模型对中文文本进行分词处理；对全部分词语料进行清洗，将不利于判断有效信息、重复出现的非语素词全部清洗掉；计算各个分词的词频逆文本词频值，将词频逆文本词频值低于设定阈值的非关键词删除，通过保留的词组建分析语料库。本发明可将舆情监测范围大大提高，沿线各小语种国家的信息都可被该模型进行实时监测分析。本发明将难以进行准备切分的新闻性文本，进行了高准确度的分词清洗。经人工检测后，非有效信息的出现率及有效信息的误排率都极低。

Description

一种小语种国家的舆情信息文本处理方法

技术领域

本发明涉及文本处理技术领域，具体而言，尤其涉及一种小语种国家的舆情信息文本处理方法。

背景技术

现有市面上对舆情信息的处理的方法，主要侧重于微博端或其他社交媒体端的用户发言及评论。其文本本身的体量小、结构简单。而对于小语种国家相关的政治经济类新闻文本，其文本的体量大、结构复杂，有效信息隐蔽。且市面上的舆情监测对象基本都为国内的社交媒体及自媒体。对于小语种国家的舆情进行监控是缺失的。

发明内容

根据上述提出的技术问题，而提供一种小语种国家的舆情信息文本处理方法。

本发明采用的技术手段如下：

一种小语种国家的舆情信息文本处理方法，包括如下步骤：

将小语种文本翻译为英文，再根据英文文本翻译为中文文本；

基于隐马尔可夫模型对中文文本进行分词处理；

对全部分词语料进行清洗，将不利于判断有效信息、重复出现的非语素词全部清洗掉；

计算各个分词的词频逆文本词频值，将词频逆文本词频值低于设定阈值的非关键词删除，通过保留的词组建分析语料库。

进一步地，所述隐马尔可夫模型具体表达式为：

P(x_t|x_t-1，x_t-2，…，x₁，y₁，…，y_t-1)＝P(x_t|x_t-1)

其中，x_t为t字本身的状态，x_t-1为t字后面一字的状态，y₁为x₁所能组成的第一种词的状态。

进一步地，在分词处理过程中，优先将相关关键词汇进行分词，将相关关键词以字典的形式载入分词过程，并将关键词以优先级进行关键值赋值。

进一步地，所述计算各个分词的词频逆文本词频值具体为：

整体的tf-idf计算规则为：

其中，TF(w)表示各词在语料库的词频，I(w)表示信息查询中关键词的信息量，N表示整个语料库的大小，P(w)表示语料库中有效信息的逆文本信息量，M表示w语料所在的文章的全部集合。

较现有技术相比，本发明可将舆情监测范围大大提高，不仅可监测国内信息及国外英文信息源，“一带一路”沿线各小语种国家的信息都可被该模型进行实时监测分析。本发明将难以进行准备切分的新闻性文本，进行了高准确度的分词清洗。经人工检测后，非有效信息的出现率及有效信息的误排率都极低。

基于上述理由本发明可在文本处理领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种小语种国家的舆情信息文本处理方法流程图。

图2为本发明实施例中小语种国家舆情热词展示效果图。

图3为本发明实施例中关键词的优先度赋值效果图。

图4为本发明实施例中清洗词库部分词展示效果图。

图5为本发明实施例中热词的根据热度的排序结果图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本发明提供了一种小语种国家的舆情信息文本处理方法，包括如下步骤：

基于隐马尔可夫模型对中文文本进行分词处理；

所述隐马尔可夫模型具体表达式为：

P(x_t|x_t-1，x_t-2，…，x₁，y₁，…，y_t-1)＝P(x_t|x_t-1)

在分词处理过程中，优先将相关关键词汇进行分词，将相关关键词以字典的形式载入分词过程，并将关键词以优先级进行关键值赋值。

所述计算各个分词的词频逆文本词频值具体为：

整体的tf-idf计算规则为：

实施例1

如图2所示，根据本发明所提出的方法，对“一带一路”沿线国家的舆情信息进行实时监测及文本处理。可实时提取文本中的有效语素，为后续的舆情信息深入数据挖掘如情感分析或热点识别提供优质的数据基础，大大提高舆情文本中提取有效信息的效率及准确度。且根据文本中各词的tf-idf值，即可得到舆情信息的热词结果，附图即为某天“一带一路”沿线国家的舆情热词展示。

实施例2

如图3所示，为本实施例分词处理中的各关键词的优先度赋值过程，如图4所示，为本实施例清洗过程中的清洗词库中的若干词，如图5所示，为剔除低于设定阈值的非关键词后的热词热度排序结果图，可以直观地实时了解热词的热度。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种小语种国家的舆情信息文本处理方法，其特征在于，包括如下步骤：

基于隐马尔可夫模型对中文文本进行分词处理；

2.根据权利要求1所述的小语种国家的舆情信息文本处理方法，其特征在于，所述隐马尔可夫模型具体表达式为：

P(x_t|x_t-1，x_t-2，…，x₁，y₁，…，y_t-1)＝P(x_t|x_t-1)

3.根据权利要求1或2所述的小语种国家的舆情信息文本处理方法，其特征在于，在分词处理过程中，优先将相关关键词汇进行分词，将相关关键词以字典的形式载入分词过程，并将关键词以优先级进行关键值赋值。

4.根据权利要求3所述的小语种国家的舆情信息文本处理方法，其特征在于，所述计算各个分词的词频逆文本词频值具体为：

整体的tf-idf计算规则为：