CN109408828A

CN109408828A - 用于电视领域语义分析的分词系统

Info

Publication number: CN109408828A
Application number: CN201811325961.4A
Authority: CN
Inventors: 高岚
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2019-03-01

Abstract

本发明涉及分词领域，公开了一种用于电视领域语义分析的分词系统，用以解决CRF分词方法对于专用词汇和名称进行分词出现错误的问题。本发明包括：包括分词处理模块、CRF模型训练模块、专用词典生成模块、专用词典查询模块以及语料库；其中，CRF模型训练模块用于使用基于词典的分词方法对语料库中的通用语料进行分词和标注，将标注后的语料库利用CRF工具进行训练得到CRF分词模型；专用词典生成模块用于基于语料库中的专业语料生成一个专用词典；分词处理模块用于采用CRF分词模型对用户的语音文本数据分词处理，并通过专用词典查询模块遍历查询专用词典，对CRF分词模型分词后的某些字和词进行组合，生成专用名词。本发明适用于电视领域语义分析。

Description

用于电视领域语义分析的分词系统

技术领域

本发明涉及分词领域，特别涉及用于电视领域语义分析的分词系统。

背景技术

一个机器如果要理解一段人类的语言，那么它必须要知道相应的语言知识。计算机的所有语言知识都来自机器词典(给出词的各项信息)、句法规则(以词类的各种组合方式来描述词的聚合现象)以及有关词和句子的语义、语境、语用知识库，所有这些都跟词相关。

那么在中文信息处理系统中，只要涉及句法、语义(如检索、翻译、文摘、校对等应用)，就需要以词为基本单位，当汉字由句转化为词之后，才能使得句法分析、语句理解、自动文摘、自动分类和机器翻译等文本处理具有可行性。

众所周知，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符。所以，对中文系统来说，分词是机器语言学的基础。所谓分词就是把字与字连在一起的汉语句子分成若干个相互独立、完整、正确的单词，词是最小的、能独立活动的、有意义的语言成分。

分词方法有很多，早期的分词方法多是基于词典的字符串匹配的分词方法，这类方法的优点是速度快、效率高，在目前的工业领域广泛应用，但它的缺点也很明显，由于这类方法过度依赖词典和规则库，因此对歧义词和未登录词的识别能力较低，即出现新的词汇，很难将其分辨出来。随着机器学习技术的发展，新一代的机器学习技术分词方法出现了——条件随机场(Conditional Random Field，即CRF)分词方法。

CRF分词方法不仅考虑了文字词语出现的频率信息，同时考虑上下文语境，具备较好的学习能力，因此其对歧义词和未登录词的识别都具有良好的效果。作为一种通用领域的分词技术，CRF的分词效果是非常不错的，但在特定领域中，由于一些专用词汇和名称的特殊性，CRF分词会出现错误。比如，一部电影名称，往往由多个词汇组成，如果只使用CRF分词，那么这部电影名称会被分为多个词汇，在检索的时候，将会出现无法检索这部电影名称的情况。

在电视领域，这些专用名称非常多，比如电影名称、电视剧名称、电视节目名称、电视台名称等等。如果电视要理解用户的语言信息，必须能够识别出这些专用名称，并正确理解用户的意图。

发明内容

本发明要解决的技术问题是：提供一种用于电视领域语义分析的分词系统，用以解决CRF分词方法对于专用词汇和名称进行分词出现错误的问题。

为解决上述问题，本发明采用的技术方案是：用于电视领域语义分析的分词系统，包括分词处理模块、CRF模型训练模块、专用词典生成模块、专用词典查询模块以及语料库；

CRF模型训练模块用于使用基于词典的分词方法对语料库中的通用语料进行分词和标注，将标注后的语料库利用CRF工具进行训练得到CRF分词模型；

专用词典生成模块用于基于语料库中的专业语料生成一个专用词典；

分词处理模块用于采用CRF分词模型对用户的语音文本数据分词处理，并通过专用词典查询模块遍历查询专用词典，对CRF分词模型分词后的某些字和词进行组合，生成专用名词。

进一步的，专用词典可被构造成双数组Trie树，专用词典用文本的形式储存了index、term、base、check、status与nature字段。采用双数组Trie树的结构不需要遍历所有的词典，只要找到一个相关的词，就可以迅速找到我们所需要的词汇。当某些字或词能组成专用名词，则将这些字或词重新组合，生成专用名词，得到最后分词结果。

本发明的有益效果是：本发明在CRF分词技术的基础上，增加了专有领域字典查询技术,使得被误切分的专有领域词汇，可以重新正确的合并在一起，提高了CRF分词的准确性。

附图说明

图1是本发明的基本流程图。

图2是传统CRF分词效果和本发明的分词效果的对比图。

图3CRF分词方法的搜索最优路径的示意图。

图4是双数组Trie树格式的词典的结构图。

图5是双数组Trie树格式的词典的数据结构图。

具体实施方式

目前广泛采用的CRF分词方法虽具有很好的学习能力，对歧义词和未登录词都有很好的预判，但它的分词方法常常是针对通用场景，对一些专用命名实体较多的领域，分词处理效果往往是过犹不及。在分词方法上，为了处理这种专用命名实体(如电影名称、电视剧名称、电视节目名称、电视台名称等等)，也为了保留分词方法的先进性和智能性，本发明公开的用于分词系统将CRF分词方法和专用名词词典查询方法相结合的一种分词装置，适用于特定的领域，如电视领域。

本发明包括分词处理模块、CRF模型训练模块、专用词典生成模块、专用词典查询模块以及语料库；其中：

图1显示了本发明系统工作的基本流程，包含以下步骤：

当系统接收到用户的语音文本数据后，调用CRF模型训练模块预先训练完毕的CRF分词模型，得到分词后的字和词。将分词后的字和词按文本序列输入到下一个模块——专用词典查询模块中。在这个模块中，预先定义的专用词典被构造成了双数组Trie树，双数组Trie树可以很方便的对词汇进行遍历和查询。如果在遍历查询过程中，某些字或词能组成专用名词，则将这些字或词重新组合，生成专用名词，得到最后分词结果。如图2为传统CRF分词效果和本发明的分词效果的对比，在CRF的标注结果显示中，第二列数据显示的第一列的字是词还是单个字。B表示词的开头，E表示词的结尾，S表示单个字，CRF的标注结果实际上就是“播放甄嬛传”，而本发明的分词效果是“播放甄嬛传”。

预先训练完毕的CRF分词模型为一种概率图模型，其训练过程如下：

采集语料库，使用基于词典的字符串匹配的分词方法对语料库进行分词，然后对分词的结果进行CRF格式的标注，将标注后的语料库利用CRF工具(CRF++)进行训练得到CRF模型。

由于电影、电视剧等名称日新月异，需要不断的更新数据。预先定义的专业词典也就需要不断的更新。采集专业领域最新的相关数据，如电影名称、电视剧名称等数据，存入数据库中。定期对数据库进行更新和去重，并对每一条数据加入时间戳。在对数据库整理后，统一取数据，对专用词典进行更新。

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合实施例对本发明进行进一步详细说明。

实施例提供一种用于电视领域语义分析的分词系统，包括分词处理模块、CRF模型训练模块、专用词典生成模块、专用词典查询模块以及语料库；其工作原理包括：

(1)分词处理过程：

分词处理模块得到一个文本语句后，将语句划分为每一个字，提取CRF模型中的特征权值，用于计算上一个字和下一个字的路径分数，参考图3，计算所有路径的分数，搜索一条最优路径，通常取路径分数最低值。那么这条最优路径就是所得到的分词。

在使用CRF方法分词后，可以得到分词后的字和词。将分词后的字和词，按序列输入到下一个模块——专用词典查询模块中，从第一个词或字开始匹配查询。在这个模块中，专用词典是一个双数组Trie树格式的词典，见图4，用文本的形式储存了index、term、base，check、status与nature等字段，见图5。

index就是base数组中的下标。term是词的当前状态。base是base数组的值。代表字串的当前状态，其实就是字串一路按base[tx]＝base[t]+x查过来的值。比如base[甄嬛传]＝base[甄嬛]+code(传)。特别地，如果字串长度为1的话(字符)，那么base值就是字符的双字节码。check是check数组的值。check是用来验证这个词是从哪个状态转换过来的。status是term的成词状态：1:继续2:是个词语但是还可以继续3:确定。nature是这个词以这些词性出现的频次。

以这种结构，不需要遍历所有的词典，只要找到一个相关的词，就可以迅速找到我们所需要的词汇。当某些字或词能组成专用名词，则将这些字或词重新组合，生成专用名词，得到最后分词结果。

(2)CRF分词模型训练模块：

CRF模型训练模块采集语料库中通用的语料，先使用基于词典的字符串匹配的分词方法对语料库进行分词，然后对分词的结果进行CRF格式的标记。如一句话“商品和服务”，分词后是“商品和服务”，CRF格式的标记是4标记：B-词开始，S-单独成词，M-词语中间的字，E-词结束。那么，标记后的文本为：

商B

品E

和S

服B

务E

将语料库按照上述的方式标记后，利用CRF工具——CRF++进行训练得到CRF模型。CRF模型里面存储的就是字与字之间的特征权值。

(3)专用词典生成更新模块：

在缺乏相关专业领域数据库的情况下，可购买相关数据库或使用其他技术手段来获取数据。将数据存入mysql数据库中，在存入数据库的时候对每条数据加入时间戳，方便以后的定期更新。

在将数据库文件存成txt类型的词典的过程中，使用Hash结构来去掉重复数据，并清洗数据，如去掉时间或其他多余字符。在整理完数据后，统一生成一个专用词典。

Claims

1.用于电视领域语义分析的分词系统，其特征在于，包括分词处理模块、CRF模型训练模块、专用词典生成模块、专用词典查询模块以及语料库；

2.如权利要求1所述的用于电视领域语义分析的分词系统，其特征在于，专用词典被构造成了双数组Trie树，专用词典用文本的形式储存了index、term、base、check、status与nature字段。