CN113392189B

CN113392189B - 基于自动分词的新闻文本处理方法

Info

Publication number: CN113392189B
Application number: CN202110939825.XA
Authority: CN
Inventors: 黄振华; 李惠惠
Original assignee: Donghua Polytechnic University Nanchang Campus
Current assignee: Donghua Polytechnic University Nanchang Campus
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2022-02-08
Anticipated expiration: 2041-08-17
Also published as: CN113392189A

Abstract

本发明公开了一种基于自动分词的新闻文本处理方法。该方法首先生成词组数据库。接着提取时事文本、领域标签、新闻文本，对比时事文本与基础词组，确定该时事文本的多个有源词组以及无源词组。然后检索新闻文本中与有源词组和无源词组相同的待处理字符串，生成第一字符串和第二字符串以及中间文本。再对比中间文本与基础词组，确定第三字符串以及第四字符串，最后拼接第一、二、三、四字符串完成对新闻文本的分词处理。本方法通过对新闻文本的分词为文本语义识别提供技术基础。也有利于挖掘新闻的价值，能够更加精准的定位搜索。

Description

基于自动分词的新闻文本处理方法

技术领域

本发明涉及文本处理技术，尤其涉及一种基于自动分词的新闻文本处理方法。

背景技术

随着互联网的发展，信息获取变得十分容易，对同一件时事事件的新闻报道五花八门，用户了解真实事件的过程中往往会充斥着许多无关的信息，无法真正的看到自己想要了解的信息。在现有技术中，CN201610114278.0的那种新闻处理系统通过对新闻标题进行多层次分类，将新闻分为多个类别，提高了新闻的使用价值。但是，仅仅通过对标题进行分类的方式无法保证对内容进行甄别，可能新闻标题符合用户搜索的关键词，但是内容却与此无关。在理解新闻内容之前需要结合分类技术对新闻做引用来源的处理。尤其是那些引用时事文件的新闻，更需要根据时事文件的来源和依据理解新闻内容。在文本语义理解技术以及人工智能文本理解中，分词是理解文本内容的前提。

在这一领域中存在两个技术问题。首先，最大值匹配法可以从大部分文本中提取词组，但是该方法的计算量较大。检索法根据确定的词组在文本中检索相同的内容，可以提高处理效率。其次，部分新闻存在某些创新词汇，该创新词汇在现有的词库中无法检索，给文本理解带来难度。但是该词汇多数来源于该新闻所引用的某一新颁布的政府文件或行业技术文件（时事文件）。

发明内容

为了解决上述现有技术存在的缺陷，本发明提出了一种基于自动分词的新闻文本处理方法，结合该新闻所引用的时事文本，采用多重词组筛选方法，提高新闻文本的分词效率，让查找的效率更高。

一种基于自动分词的新闻文本处理方法，包括以下步骤：

Step1，生成词组数据库，该词组数据库具有任意领域标签的词组字典，词组字典中包含多个基础词组；

Step2，提取新闻文本、该新闻文本引用的时事文本以及领域标签；

Step3，根据时事文本的领域标签确定相应领域的词组字典，采用匹配算法对比时事文本与词组字典中的基础词组，确定该时事文本的多个有源词组，剔除该时事文本中有源词组和连接词后生成无源词组，其中，有源词组为时事文本中与基础词组匹配成功的词组；

Step4，根据检索算法在新闻文本中依次检索与有源词组和无源词组内容相同的字符串，分别生成第一字符串和第二字符串

Step5，在新闻文本中剔除第一字符串和第二字符串生成中间文本；

Step6，采用匹配算法对比中间文本与词组字典中的基础词组，匹配成功的词组作为第三字符串，剩下无法匹配的词组作为第四字符串；

Step7，根据顺序拼接第一字符串、第二字符串、第三字符串以及第四字符串，输出分词结果，完成对新闻文本的分词处理。

在本发明中，所述Step3的匹配算法包括以下步骤：

Step31，根据标点符号将时事文本分割为多个目标字符串W（h＋1/k－1），h为左侧标点符号的位置数据，k为右侧标点符号的位置数据；

Step32，选择其中一个待匹配的目标字符串为待处理字符串W（i/j），i初始值为h＋1，j初始值为k－1；

Step33，判断词组数据库是否存在与待处理字符串相同的基础词组，若存在，则进入step34，若不存在，则进入step35；

Step34，将待处理字符串与基础词组匹配成功的结果存储为有源词组，更新目标字符串，i＝j＋1，j＝k－1，进入step36；

Step35，更新待处理字符串，j－－，进入step36；

Step36，判断i是否小于j，若i小于j，返回step33，若i不小于j，进入step37；

Step37，更新待处理字符串，i＋＋，j＝k－1；

Step38，判断i是否等于k－1，若是，进入step39，若否，返回step33；

Step39，判断时事文本的所有目标字符串是否均已匹配完成，若是，则结束匹配算法，若否，返回step32。

在本发明中，所述Step4的检索算法包括以下步骤：

Step41，存储任意有源词组及有源词组在时事文本中的词频度；

Step42，根据标点符号将新闻文本分割为多个目标字符串；

Step43，在目标字符串中检索出与有源词组相同的多个待处理字符串；

Step44，判断两组待处理字符串的位置数据是否重叠，若重叠，进入step45，若不重叠，进入step46；

Step45，提取待处理字符串对应的词频度，选择词频度较大的待处理字符串为第一字符串，进入step47；

Step46，将该两组待处理字符串拼接为第一字符串，进入step47；

Step47，判断待处理字符串是否对比完毕，若是，则结束检索算法，若否，则进入step44。

在本发明中，W（h＋1/k－1）指的是位置数据h+1到位置数据k-1的字符串。

在本发明中，有源词组的词频度

，m为序号，T_m为有源词组的出现次数，N_m为有源词组的长度，H为时事文本的总长度。

在本发明中，所述领域标签分为哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学和艺术学。

本发明的基于自动分词的新闻文本处理方法，通过对新闻文本进行分词处理，可以将新闻文本分成多个字符串，使搜索引擎更易学习，更快速的确定新闻内容和词义。用户在搜索相关新闻时只需通过输入时事事件关键词便可以准确的找到报导该事件的新闻，方便了用户快速了解时事内容。

附图说明

图1为基于自动分词的新闻文本处理方法的流程图；

图2为匹配算法的流程图；

图3为匹配算法过程的示意图；

图4为检索算法的流程图；

图5为提供的一个实施例处理过程的示意图；

图6为词组字典项目及含义表。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

如图1至图4所示为本发明的基于自动分词的新闻文本处理方法，根据词组数据库和时事文本，可以将新闻文本分成多个字符串，达到快速分词的目的。本发明主要步骤如下所述。

Step1，生成词组数据库，该词组数据库具有任意领域标签的词组字典，词组字典中包含多个基础词组。首先，收集哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学和艺术学等领域对应的基础词组，构建词组字典的字段，如图6所示。

例如，以计算机软件领域为例，其词组字典（系统）名称为“工科中文分词字典”：词组字典名称为“计算机软件分字典”，其中存储的基础词组，例如“创建对象”，为其数据名称；数据存储名称为“词汇”；数据类型为“ASCII”；数据说明为“常用语计算机软件编程中”；数据存储长度为1024。构建多个领域的词组字典之后组合生成词组数据库。

Step2，提取新闻文本、该新闻文本引用的时事文本以及领域标签。新闻文本为一个句子或者一个段落。通过报纸，杂志，互联网等媒体途径提取新闻文本的时事事件，例如该新闻文本所针对的时事文本，确定该时事文本的领域标签。

Step3，根据时事文本的领域标签确定相应领域的词组字典，采用匹配算法对比时事文本与词组字典中的基础词组，确定该时事文本的多个有源词组，剔除该时事文本中有源词组后生成无源词组。通过匹配算法对比时事文本与相应领域词组字典中的基础词组，时事文本中与基础词组匹配成功的字符串连接成为有源词组，根据剩余匹配失败的字符串生成无源词组。生成无源词组前还可以删除类似于“的”、“后”、“用于”等副词和连接词。

其中，匹配算法如图2所示：

Step31，根据标点符号将时事文本分割为多个目标字符串W（h＋1/k－1），h为左侧标点符号的位置数据，k为右侧标点符号的位置数据。例如两侧标点符号分别为8和15，目标字符串表示为W（9/14）。一组时事文本中可能有多句话，被分割为多个目标字符串。Step32，选择其中一个待匹配的目标字符串为待处理字符串W（i/j），i初始值为h＋1，j初始值为k－1。采用择一的方式逐个匹配字符。Step33，判断词组数据库是否存在与待处理字符串相同的基础词组。根据判断结果做不同处理。

若存在，则进入step34。Step34，如图3所示，由于存在这项词组，因此将待处理字符串W（i/j）与基础词组匹配成功的结果存储为有源词组。存储完成后，将W（i/j）之后的字符作为更新后的处理字符串，i＝j＋1，j＝k－1，更新完成后进入下一轮匹配。进入step36。若不存在，则进入step35。Step35，不存在这项词组，更新待处理字符串，j－－。采用遍历方式删除末尾一个字符，作为新的匹配对象，进入下一轮匹配。进入step36。

Step36，在匹配前需要校验判断W（i/j）是否满足匹配条件，若首个字符的位置数据大于或等于末尾字符，代表该次循环已经检索了全部词组，需要对字符串首字母删减，再开始下一轮匹配。i是否小于j，若i小于j，返回step33，若i不小于j，进入step37。

Step37，更新待处理字符串，即删除首字符，形成新的字符串。i＋＋，j＝k－1。Step38，判断i是否等于k－1。即判断删除首字母后，字符串是否已经循环至整个字符串的末尾。若是，进入step39，若i不是，返回step33。

Step39，判断时事文本的所有目标字符串是否均已匹配完成，若是，则结束匹配算法。若否，返回step32，继续完成下一目标字符串的匹配工作。

Step4，在获得时事文本的有源词组和无源词组之后，根据检索算法在新闻文本中依次检索与有源词组和无源词组内容相同的字符串，分别生成第一字符串和第二字符串。

在本发明中，所述Step4的检索算法包括以下步骤：

Step41，存储任意有源词组及有源词组在时事文本中的词频度。有源词组的词频度

，m为序号，T_m为有源词组的出现次数，N_m为有源词组的长度，H为时事文本的总长度。Step42，根据标点符号将新闻文本分割为多个目标字符串。Step43，在目标字符串中检索出与有源词组相同的多个待处理字符串。

Step44，判断两组待处理字符串的位置数据是否重叠。由于字符检索与遍历不同，字符检索可能获得多项重叠字符。例如“操作系统软件”中，可以检索出“操作系统”与“系统软件”。

若字符重叠，进入Step45。Step45，提取待处理字符串对应的词频度，选择词频度较大的待处理字符串为第一字符串，进入step47。若字符不重叠，进入step46。Step46，将该两组待处理字符串组合为第一字符串，进入step47。

本申请中，利用无源词组检索第二字符串也可以采用检索有源词组的这种检索算法。具体来说，将不包含第一字符串的新闻文本作为检索基础（对应于Step42的新闻文本），无源词组作为检索对象（对应于Step43的有源词组），从而获得多个待处理字符串，最后通过重叠字符判定方法获得多个第二字符串。

Step5，在新闻文本中剔除第一字符串和第二字符串之后，将剩余的字符串作为中间文本。

Step6，中间文本也可利用时事文本的这种匹配算法和基础词组进行匹配，将匹配成功的字符串作为第三字符串，剩余匹配失败的字符串作为第四字符串。

Step7，将获得的第一字符串、第二字符串、第三字符串和第四字符串拼接，完成对新闻文本的分词处理。输出经过分词处理的新闻文本。

参照图5，为本发明提供的一个实施例处理过程的示意图。例如时事文本为中国人民银行某令，标签为经济学。词组字典包含非银行金融机构、存管账户、支付指令等。

时事文本中的字符串为“备付金协议应当约定非银行支付机构划转客户备付金的支付指令”。据此提取的有源词组为“非银行支付机构”，“支付指令”。剔除有源词组和部分连接词后，剩余“备付金”、“协议”、“约定”、“划转”、“客户”为无源词组。

某通讯社新闻文本：“本报讯非银行支付机构的客户备付金日终后全部集中存放于存管账户中”。根据有源词组和无源词组获得第一字符串和第二字符串。确定中间文本“本报讯×的客户×日终后全部集中存放于存管账户中”。采用匹配算法确定第三字符串“存管账户”以及其他第四字符串。

最终确定分词处理结果“本报讯/非银行支付机构/的/客户/备付金/日终后全部集中存放于/存管账户/中”。该分词结果可以用于深度学习算法理解语义内容，达到机器学习的目的，也可以用于数据检索和新闻分析。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改，等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自动分词的新闻文本处理方法，包括以下步骤：

Step4，根据检索算法在新闻文本中依次检索与有源词组和无源词组内容相同的字符串，分别生成第一字符串和第二字符串；

2.根据权利要求1所述的基于自动分词的新闻文本处理方法，其特征在于，所述Step4的检索算法包括以下步骤：

Step42，根据标点符号将新闻文本分割为多个目标字符串；

3.根据权利要求2所述的基于自动分词的新闻文本处理方法，其特征在于，有源词组的词频度

4.根据权利要求1所述的基于自动分词的新闻文本处理方法，其特征在于，所述领域标签分为哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学和艺术学。