CN107766327A

CN107766327A - 一种命名实体识别过程中纠错的方法及系统

Info

Publication number: CN107766327A
Application number: CN201710992016.9A
Authority: CN
Inventors: 汤超
Original assignee: Wuhan Ding Ting Information Technology Co Ltd
Current assignee: Wuhan Ding Ting Information Technology Co Ltd
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2018-03-06

Abstract

本发明公开了一种命名实体识别过程中纠错的方法及系统，所述方法包括：纠错模块获取输入内容进行纠错；所述用户反馈及分析模块接收所述落地日志；所述用户反馈及分析模块对落地日志进行同音字分析、模糊音分析、形近字分析、同义词分析、编辑距离分析；所述用户反馈及分析模块发送分析结果至存储于数据库中的拼音表、模糊音规则表、形近字表、同义词表、编辑距离cache中。该发明从分词后的词性标注‑命名实体识别入手，考虑到用户在输入问句过程中可能存在的各种错误，本发明提供了一整套易于实施的策略减少了（2）命名实体识别过程中上述输入错误带来的干扰，大大提高了命名实体识别的质量，从而为整个语义识别过程奠定了更为可靠的基础。

Description

一种命名实体识别过程中纠错的方法及系统

技术领域

本发明涉及互联网金融软件开发领域，特别是涉及金融相关的命名实体识别技术、人工智能语义识别技术等使用场景的一种命名实体识别过程中纠错的方法及系统。

背景技术

随着信息技术的发展，人们获取信息的方式也越来越精进，人们不再只是通过报纸和电视来获取各种信息，而是通过app应用来查看app应用提供商已经归纳好的信息。这些app应用提供商中，当然也包括了大部分互联网金融企业。语义识别，就是运用各种机器学习方法来挖掘与学习文本、图片等相关联的深层次概念，理解文本和图片表象背后的意图和动机。互联网金融企业势必面对客户大量与金融相关的资讯、行情、知识等信息咨询，单靠传统的人工客服或者有限的专家来解答已经显得捉襟见肘，因此都需要建立自己的一套自动问答系统。自动问答系统通过自身的语义识别模块识别用户输入问题的真正意图，然后根据意图找到对应的答案，或者与意图相关的一些答案，提供给用户，给用户带来完美的体验。

语义识别系统（模块）是否优良主要看以下几个方面：（1）分词的准确度，即要进行语义分析，一般需要将句子根据好的分词模型进行分词；（2）分词后的词性标注-命名实体识别，即分析出所分词的词性：名词，动词，形容词，或者更具体一点：股票代码，股票，金融专有名词等等；（1）和（2）密切相关关，并且（2）实质上影响了（1）的确切效果；（3）好的语言模型，即一个好的人工智能或者工程学方法能够将（1）、（2）的结果进行很好的的使用，具体分析出用户问题的意图。

发明内容

该发明从（2）入手，考虑到用户在输入问句过程中可能存在的各种错误，例如：用户旨在询问某一股票的行情“万科的行情”，但是他输错了一个字，结果输入成了“晚科的行情”；用户文化水平不高，仅能输入想要输入信息相关的拼音， “万科”输入为“wanke”；用户所住当地方言的影响对用户自身的书面语表达影响较大，江浙一带“h”易读成“f”，“回族”易输成“fei zu”；别字错误（形近字错误）；输入错漏，“贵州茅台”这一股票名称对于某些用户来讲可能无法记清全部，他们可能仅仅记得“茅台”。本发明提供了一整套易于实施的策略减少了（2）命名实体识别过程中上述输入错误带来的干扰，大大提高了命名实体识别的质量，从而为整个语义识别过程奠定了更为可靠的基础。

第一方面，一种命名实体识别过程中纠错的方法，所述方法包括：

纠错模块获取输入内容进行纠错；

所述用户反馈及分析模块接收所述落地日志；

所述用户反馈及分析模块对落地日志进行同音字分析、模糊音分析、形近字分析、同义词分析、编辑距离分析；

所述用户反馈及分析模块发送分析结果至存储于数据库中的拼音表、模糊音规则表、形近字表、同义词表、编辑距离cache中。

结合第一方面，在第一方面的第一种可能的实现方式中，所述纠错模块获取输入内容进行纠错包括：

输入装置获取用户输入内容并传送至线上服务器的纠错模块，所述纠错模块包括同音字纠错模块、模糊音纠错模块、形近字纠错模块、同义词纠错模块、编辑距离纠错模块；

所述纠错模块对所述用户输入内容进行同音字纠错、模糊音纠错、形近字纠错、同义词纠错、编辑距离纠错；

所述纠错模块反馈纠错结果生成落地日志发送至所述用户反馈及分析模块。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述纠错模块对所述用户输入内容进行同音字纠错、模糊音纠错、形近字纠错、同义词纠错、编辑距离纠错包括：

所述同音字纠错模块依据所述拼音表进行同音字纠错、所述模糊音纠错模块依据所述模糊音规则表进行模糊音纠错、所述形近字纠错模块依据形近字表进行形近字纠错、所述同义词纠错模块依据同义词表进行同义词纠错、所述编辑距离纠错模块依据编辑距离cache存储的编辑距离计算结果进行编辑距离纠错。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述编辑距离纠错模块依据编辑距离cache存储的编辑距离计算结果进行编辑距离纠错包括，

所述编辑距离纠错模块获取所述输入内容中的分词；

所述分词同存储于数据库的词汇表中的词进行编辑距离计算，判断编辑距离cache是否存在该分词的编辑距离计算结果；如果有，选择编辑距离计算结果最短的进行匹配分析；如果无，计算该单个分词与词汇表中的所有词的编辑距离，将排序结果存入cache。

第二方面，一种命名实体识别过程中纠错的系统，所述系统包括输入装置、纠错模块、用户反馈及分析模块、数据库：

所述输入装置用于获取输入内容；

所述纠错模块包括，

同音字纠错模块：根据存储在数据库的拼音表识别出同音但不同字的输入错误；

模糊音纠错模块：根据存储在数据库的模糊音规则表识别出拼写的输入错误；

形近字纠错模块：根据存储在数据库的形近字表识别出形近字字的输入错误

同义词纠错模块：根据存储在数据库的同义词表识别出同义词的输入错误；

编辑距离纠错模块：根据存储在数据库的编辑距离cache中各个单词的编辑距离计算出最短编辑距离。

所述用户反馈及分析模块用于分析所述落地日志包含的同音字、模糊音、形近字、同义词、编辑距离，并更新拼音表、模糊音规则表、形近字表、同义词表、编辑距离cache；

所述数据库用于存储所述拼音表、模糊音规则表、形近字表、同义词表、编辑距离cache。

第三方面，一种存储设备，其存储适用于处理器加载和执行的指令，其指令为：

纠错模块获取输入内容进行纠错；

所述用户反馈及分析模块接收所述落地日志；

结合第三方面，在第三方面的第一种可能的实现方式中，纠错模块获取输入内容进行纠错包括：

第四方面，一种移动终端设备，包括处理器、存储设备，所述处理器适于加载和执行指令，所述存储设备适用于存储多条指令，所述指令适于由处理器加载并执行；

纠错模块获取输入内容；

所述用户反馈及分析模块接收所述落地日志；

结合第四方面，在第四方面的第一种可能的实现方式中，输入装置获取用户输入内容并传送至线上服务器的纠错模块，所述纠错模块包括同音字纠错模块、模糊音纠错模块、形近字纠错模块、同义词纠错模块、编辑距离纠错模块；

有益效果：该发明从分词后的词性标注-命名实体识别入手，考虑到用户在输入问句过程中可能存在的各种错误，本发明提供了一整套易于实施的策略减少了（2）命名实体识别过程中上述输入错误带来的干扰，大大提高了命名实体识别的质量，从而为整个语义识别过程奠定了更为可靠的基础。

附图说明

图1是本发明的整体各模块的系统结构图；

图2是本发明的编辑距离纠正模块的流程图；

图3是用户一个输入样例在整个系统中的处理过程示例图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

如图1所示实施例，一种命名实体识别过程中纠错的系统，所述系统包括输入装置、纠错模块、用户反馈及分析模块、数据库：

所述输入装置用于获取输入内容；

所述纠错模块包括，

基于所述命名实体识别过程中纠错的系统的方法指令为：

1.输入装置获取用户输入内容并传送至线上服务器的纠错模块，所述纠错模块包括同音字纠错模块、模糊音纠错模块、形近字纠错模块、同义词纠错模块、编辑距离纠错模块。

2.所述同音字纠错模块依据所述拼音表进行同音字纠错、所述模糊音纠错模块依据所述模糊音规则表进行模糊音纠错、所述形近字纠错模块依据形近字表进行形近字纠错、所述同义词纠错模块依据同义词表进行同义词纠错、所述编辑距离纠错模块依据编辑距离cache存储的编辑距离计算结果进行编辑距离纠错。所述各种纠错之间彼此是独立进行的，并无顺序依赖关系。

3.所述纠错模块反馈纠错结果生成落地日志发送至所述用户反馈及分析模块。

4.所述用户反馈及分析模块接收所述落地日志。

5.所述用户反馈及分析模块对落地日志进行同音字分析、模糊音分析、形近字分析、同义词分析、编辑距离分析。所述各种分析之间彼此是独立进行的，并无顺序依赖关系。

6.所述用户反馈及分析模块发送分析结果至存储于数据库中的拼音表、模糊音规则表、形近字表、同义词表、编辑距离cache中。

所述用户反馈及分析模块的同音字分析，如落地日志为“晚课的行情”，用户反馈及分析模块的同音字分析出“晚课”的拼音为“wanke”，再结合金融词汇得出用户可能想输入“万科”，将【“wanke”—>“万科”】存入拼音表。当再次输入“晚课的行情”时所述同音字纠错模块依据【“wanke”—>“万科”】，反馈“万科的行情”供用户确认。

所述用户反馈及分析模块的模糊音分析，如落地日志为“含情”，用户反馈及分析模块的模糊音分析出“han-qing”，再结合金融词汇得出用户可能想输入“hang-qing”获得“行情”，将【“han-qing”—>“hang-qing”】存入模糊音规则表。当再次输入“含情”时所述模糊音纠错模块依据【“han-qing”—>“hang-qing”】，反馈“行情”供用户确认。

所述用户反馈及分析模块的形近字分析，如落地日志为“汉王科枝”，用户反馈及分析模块的形近字分析出“科枝”，再结合金融词汇得出用户可能想输入“科技”，将【“科枝”—>“科技”】存入形近字规则表。当再次输入“汉王科枝”时所述模糊音纠错模块依据【“科枝”—>“科技”】，反馈“汉王科技”供用户确认。

所述用户反馈及分析模块的同义词分析，如落地日志为“中商百货的行情”，用户反馈及分析模块的同义词分析出“中商百货”，再结合金融词汇得出用户可能想输入“武汉中商”，将【“中商百货”—>“武汉中商”】存入同义词规则表。当再次输入“中商百货的行情”时所述模糊音纠错模块依据【“中商百货”—>“武汉中商”】，反馈“武汉中商的行情”供用户确认。

另外，本系统中还包括基础词更新平台，基础词更新平台是为了通过有限的人工干预来更好的辅助所述纠错模块的五个功能模块。

它主要起到以下几个作用：1，针对同音字纠错模块起到了维护拼音表的作用：拼音表即常见字和词的拼音列表，以结构化的格式存储，人工通过基础词更新平台动态的修改常见字和词的读音；2.针对模块（2）它起到了维护模糊音纠错规则的作用：模糊音纠错规则指的是纠正字词发音中常见及不常见的发音错误规则，比如通常通过语音识别可能会产生的平舌音翘舌音上的误判“sh”和“s”，那么“sh”到“s”以及“s”到“sh”就可以称为两个模糊音的纠错规则，同理“h”和“f”对于江浙一带的人群也是一个模糊音纠错规则；3.针对模块（3）它起到了维护形近字表的作用：例如“巨”和“臣”；4. 针对模块（5）它起到了维护同义词表的作用：例如“中商百货”和“武汉中商”实质上指的是一只股票。

基础词更新平台也可以人工干预编辑距离相关cache。

如图2所示实施例，所述编辑距离纠错模块依据编辑距离cache存储的编辑距离计算结果进行编辑距离纠错包括，

所述编辑距离纠错模块获取所述输入内容中的分词；

如果单个分词的编辑距离确实不在cache中，那么用户的命名实体识别流程将继续进行，只是对这个单个分词的编辑分析距离计算会由异步线程继续执行，如果这个词确实和系统维护的金融专业词汇表中的一项或几项极为接近，则结果会被保存入cache中，当下一个用户输入中带有同样的词项时，编辑距离最小的金融词汇会被作为推荐结果参与到后续的语义分析中。

如图3所示实施例，以“晚课的含情”为例：

1.输入装置获取用户输入内容“晚课的含情”并传送至线上服务器的纠错模块。

2.所述纠错模块中的同音字纠错模块对“晚课”分析得出拼音“wanke”—>“万科”，，获得“万科”；所述纠错模块中的模糊音纠错模块对“含情”分析得出拼音“han-qing”—>“hang-qing”—>“行情”，获得“行情”；反馈给用户：是否想询问“万科的行情”，同时反馈给用户万科股票的分时图、涨跌情况等。

3.用户对反馈进行确认操作。

4.生成落地日志。

5.所述用户反馈及分析模块接收所述落地日志。

6.所述用户反馈及分析模块接收所述落地日志进行分析，进行同音字分析并出“晚课-万科”，进行模糊音分析出“含情-行情”纠错信息。

7.所述用户反馈及分析模块将所述“晚课-万科”纠错信息存入拼音表中；将“含情-行情”纠错信息存入模糊音规则表中。

8.所述拼音表、模糊音规则表进行更新，便于下次纠错时同音字纠错模块、模糊音纠错模块使用。

应理解，上述实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解为在阅读本发明的内容后，本领域技术人员可以对本发明作各种改动和修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种命名实体识别过程中纠错的方法，其特征在于，所述方法包括：

纠错模块获取输入内容进行纠错；

所述用户反馈及分析模块接收所述落地日志；

2.根据权利要求1所述的一种命名实体识别过程中纠错的方法，其特征在于，所述纠错模块获取输入内容进行纠错包括：

所述纠错模块对所述用户输入内容进行同音字纠错、模糊音纠错、形近字纠错、同义词纠错、编辑距离纠错。

3.根据权利要求2所述的一种命名实体识别过程中纠错的方法，其特征在于，所述纠错模块对所述用户输入内容进行同音字纠错、模糊音纠错、形近字纠错、同义词纠错、编辑距离纠错包括：

4.根据权利要求3所述的一种命名实体识别过程中纠错的方法，其特征在于，所述编辑距离纠错模块依据编辑距离cache存储的编辑距离计算结果进行编辑距离纠错包括，

所述编辑距离纠错模块获取所述输入内容中的分词；

5.一种命名实体识别过程中纠错的系统，所述系统包括输入装置、纠错模块、用户反馈及分析模块、数据库，其特征在于，包括：

所述输入装置用于获取输入内容；

所述纠错模块包括，

编辑距离纠错模块：根据存储在数据库的编辑距离cache中各个单词的编辑距离计算出最短编辑距离；

6.一种存储设备，其存储适用于处理器加载和执行的指令，其指令为：

纠错模块获取输入内容进行纠错；

所述用户反馈及分析模块接收所述落地日志；

7.根据权利要求6所述的一种存储设备，其特征在于，纠错模块获取输入内容进行纠错包括：

所述纠错模块反馈纠错结果。

8.一种移动终端设备，包括处理器、存储设备，所述处理器适于加载和执行指令，所述存储设备适用于存储多条指令，所述指令适于由处理器加载并执行；

纠错模块获取输入内容进行纠错；

所述用户反馈及分析模块接收所述落地日志；

9.根据权利要求8所述的一种移动终端设备，其特征在于，纠错模块获取输入内容进行纠错包括：

所述纠错模块反馈纠错结果。