CN107766327A - 一种命名实体识别过程中纠错的方法及系统 - Google Patents

一种命名实体识别过程中纠错的方法及系统 Download PDF

Info

Publication number
CN107766327A
CN107766327A CN201710992016.9A CN201710992016A CN107766327A CN 107766327 A CN107766327 A CN 107766327A CN 201710992016 A CN201710992016 A CN 201710992016A CN 107766327 A CN107766327 A CN 107766327A
Authority
CN
China
Prior art keywords
error correction
analysis
editing distance
correction
correction module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710992016.9A
Other languages
English (en)
Inventor
汤超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Ding Ting Information Technology Co Ltd
Original Assignee
Wuhan Ding Ting Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Ding Ting Information Technology Co Ltd filed Critical Wuhan Ding Ting Information Technology Co Ltd
Priority to CN201710992016.9A priority Critical patent/CN107766327A/zh
Publication of CN107766327A publication Critical patent/CN107766327A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种命名实体识别过程中纠错的方法及系统,所述方法包括:纠错模块获取输入内容进行纠错;所述用户反馈及分析模块接收所述落地日志;所述用户反馈及分析模块对落地日志进行同音字分析、模糊音分析、形近字分析、同义词分析、编辑距离分析;所述用户反馈及分析模块发送分析结果至存储于数据库中的拼音表、模糊音规则表、形近字表、同义词表、编辑距离cache中。该发明从分词后的词性标注‑命名实体识别入手,考虑到用户在输入问句过程中可能存在的各种错误,本发明提供了一整套易于实施的策略减少了(2)命名实体识别过程中上述输入错误带来的干扰,大大提高了命名实体识别的质量,从而为整个语义识别过程奠定了更为可靠的基础。

Description

一种命名实体识别过程中纠错的方法及系统
技术领域
本发明涉及互联网金融软件开发领域,特别是涉及金融相关的命名实体识别技术、人工智能语义识别技术等使用场景的一种命名实体识别过程中纠错的方法及系统。
背景技术
随着信息技术的发展,人们获取信息的方式也越来越精进,人们不再只是通过报纸和电视来获取各种信息,而是通过app应用来查看app应用提供商已经归纳好的信息。这些app应用提供商中,当然也包括了大部分互联网金融企业。语义识别,就是运用各种机器学习方法来挖掘与学习文本、图片等相关联的深层次概念,理解文本和图片表象背后的意图和动机。互联网金融企业势必面对客户大量与金融相关的资讯、行情、知识等信息咨询,单靠传统的人工客服或者有限的专家来解答已经显得捉襟见肘,因此都需要建立自己的一套自动问答系统。自动问答系统通过自身的语义识别模块识别用户输入问题的真正意图,然后根据意图找到对应的答案, 或者与意图相关的一些答案, 提供给用户, 给用户带来完美的体验。
语义识别系统(模块)是否优良主要看以下几个方面:(1)分词的准确度,即要进行语义分析,一般需要将句子根据好的分词模型进行分词;(2)分词后的词性标注-命名实体识别, 即分析出所分词的词性:名词,动词,形容词,或者更具体一点:股票代码,股票,金融专有名词等等;(1)和(2)密切相关关,并且(2)实质上影响了(1)的确切效果;(3)好的语言模型, 即一个好的人工智能或者工程学方法能够将(1)、(2)的结果进行很好的的使用, 具体分析出用户问题的意图。
发明内容
该发明从(2)入手,考虑到用户在输入问句过程中可能存在的各种错误,例如:用户旨在询问某一股票的行情“万科的行情”,但是他输错了一个字,结果输入成了“晚科的行情”;用户文化水平不高,仅能输入想要输入信息相关的拼音, “万科”输入为“wanke”;用户所住当地方言的影响对用户自身的书面语表达影响较大,江浙一带“h”易读成“f”,“回族”易输成“fei zu”;别字错误(形近字错误);输入错漏,“贵州茅台”这一股票名称对于某些用户来讲可能无法记清全部, 他们可能仅仅记得“茅台”。本发明提供了一整套易于实施的策略减少了(2)命名实体识别过程中上述输入错误带来的干扰,大大提高了命名实体识别的质量,从而为整个语义识别过程奠定了更为可靠的基础。
第一方面,一种命名实体识别过程中纠错的方法,所述方法包括:
纠错模块获取输入内容进行纠错;
所述用户反馈及分析模块接收所述落地日志;
所述用户反馈及分析模块对落地日志进行同音字分析、模糊音分析、形近字分析、同义词分析、编辑距离分析;
所述用户反馈及分析模块发送分析结果至存储于数据库中的拼音表、模糊音规则表、形近字表、同义词表、编辑距离cache中。
结合第一方面,在第一方面的第一种可能的实现方式中,所述纠错模块获取输入内容进行纠错包括:
输入装置获取用户输入内容并传送至线上服务器的纠错模块,所述纠错模块包括同音字纠错模块、模糊音纠错模块、形近字纠错模块、同义词纠错模块、编辑距离纠错模块;
所述纠错模块对所述用户输入内容进行同音字纠错、模糊音纠错、形近字纠错、同义词纠错、编辑距离纠错;
所述纠错模块反馈纠错结果生成落地日志发送至所述用户反馈及分析模块。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述纠错模块对所述用户输入内容进行同音字纠错、模糊音纠错、形近字纠错、同义词纠错、编辑距离纠错包括:
所述同音字纠错模块依据所述拼音表进行同音字纠错、所述模糊音纠错模块依据所述模糊音规则表进行模糊音纠错、所述形近字纠错模块依据形近字表进行形近字纠错、所述同义词纠错模块依据同义词表进行同义词纠错、所述编辑距离纠错模块依据编辑距离cache存储的编辑距离计算结果进行编辑距离纠错。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述编辑距离纠错模块依据编辑距离cache存储的编辑距离计算结果进行编辑距离纠错包括,
所述编辑距离纠错模块获取所述输入内容中的分词;
所述分词同存储于数据库的词汇表中的词进行编辑距离计算,判断编辑距离cache是否存在该分词的编辑距离计算结果;如果有,选择编辑距离计算结果最短的进行匹配分析;如果无,计算该单个分词与词汇表中的所有词的编辑距离,将排序结果存入cache。
第二方面,一种命名实体识别过程中纠错的系统,所述系统包括输入装置、纠错模块、用户反馈及分析模块、数据库:
所述输入装置用于获取输入内容;
所述纠错模块包括,
同音字纠错模块:根据存储在数据库的拼音表识别出同音但不同字的输入错误;
模糊音纠错模块:根据存储在数据库的模糊音规则表识别出拼写的输入错误;
形近字纠错模块:根据存储在数据库的形近字表识别出形近字字的输入错误
同义词纠错模块:根据存储在数据库的同义词表识别出同义词的输入错误;
编辑距离纠错模块:根据存储在数据库的编辑距离cache中各个单词的编辑距离计算出最短编辑距离。
所述用户反馈及分析模块用于分析所述落地日志包含的同音字、模糊音、形近字、同义词、编辑距离,并更新拼音表、模糊音规则表、形近字表、同义词表、编辑距离cache;
所述数据库用于存储所述拼音表、模糊音规则表、形近字表、同义词表、编辑距离cache。
第三方面,一种存储设备,其存储适用于处理器加载和执行的指令,其指令为:
纠错模块获取输入内容进行纠错;
所述用户反馈及分析模块接收所述落地日志;
所述用户反馈及分析模块对落地日志进行同音字分析、模糊音分析、形近字分析、同义词分析、编辑距离分析;
所述用户反馈及分析模块发送分析结果至存储于数据库中的拼音表、模糊音规则表、形近字表、同义词表、编辑距离cache中。
结合第三方面,在第三方面的第一种可能的实现方式中,纠错模块获取输入内容进行纠错包括:
输入装置获取用户输入内容并传送至线上服务器的纠错模块,所述纠错模块包括同音字纠错模块、模糊音纠错模块、形近字纠错模块、同义词纠错模块、编辑距离纠错模块;
所述纠错模块对所述用户输入内容进行同音字纠错、模糊音纠错、形近字纠错、同义词纠错、编辑距离纠错;
所述纠错模块反馈纠错结果生成落地日志发送至所述用户反馈及分析模块。
第四方面,一种移动终端设备,包括处理器、存储设备,所述处理器适于加载和执行指令,所述存储设备适用于存储多条指令,所述指令适于由处理器加载并执行;
纠错模块获取输入内容;
所述用户反馈及分析模块接收所述落地日志;
所述用户反馈及分析模块对落地日志进行同音字分析、模糊音分析、形近字分析、同义词分析、编辑距离分析;
所述用户反馈及分析模块发送分析结果至存储于数据库中的拼音表、模糊音规则表、形近字表、同义词表、编辑距离cache中。
结合第四方面,在第四方面的第一种可能的实现方式中,输入装置获取用户输入内容并传送至线上服务器的纠错模块,所述纠错模块包括同音字纠错模块、模糊音纠错模块、形近字纠错模块、同义词纠错模块、编辑距离纠错模块;
所述纠错模块对所述用户输入内容进行同音字纠错、模糊音纠错、形近字纠错、同义词纠错、编辑距离纠错;
所述纠错模块反馈纠错结果生成落地日志发送至所述用户反馈及分析模块。
有益效果:该发明从分词后的词性标注-命名实体识别入手,考虑到用户在输入问句过程中可能存在的各种错误,本发明提供了一整套易于实施的策略减少了(2)命名实体识别过程中上述输入错误带来的干扰,大大提高了命名实体识别的质量,从而为整个语义识别过程奠定了更为可靠的基础。
附图说明
图1是本发明的整体各模块的系统结构图;
图2是本发明的编辑距离纠正模块的流程图;
图3是用户一个输入样例在整个系统中的处理过程示例图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
如图1所示实施例,一种命名实体识别过程中纠错的系统,所述系统包括输入装置、纠错模块、用户反馈及分析模块、数据库:
所述输入装置用于获取输入内容;
所述纠错模块包括,
同音字纠错模块:根据存储在数据库的拼音表识别出同音但不同字的输入错误;
模糊音纠错模块:根据存储在数据库的模糊音规则表识别出拼写的输入错误;
形近字纠错模块:根据存储在数据库的形近字表识别出形近字字的输入错误
同义词纠错模块:根据存储在数据库的同义词表识别出同义词的输入错误;
编辑距离纠错模块:根据存储在数据库的编辑距离cache中各个单词的编辑距离计算出最短编辑距离。
所述用户反馈及分析模块用于分析所述落地日志包含的同音字、模糊音、形近字、同义词、编辑距离,并更新拼音表、模糊音规则表、形近字表、同义词表、编辑距离cache;
所述数据库用于存储所述拼音表、模糊音规则表、形近字表、同义词表、编辑距离cache。
基于所述命名实体识别过程中纠错的系统的方法指令为:
1.输入装置获取用户输入内容并传送至线上服务器的纠错模块,所述纠错模块包括同音字纠错模块、模糊音纠错模块、形近字纠错模块、同义词纠错模块、编辑距离纠错模块。
2.所述同音字纠错模块依据所述拼音表进行同音字纠错、所述模糊音纠错模块依据所述模糊音规则表进行模糊音纠错、所述形近字纠错模块依据形近字表进行形近字纠错、所述同义词纠错模块依据同义词表进行同义词纠错、所述编辑距离纠错模块依据编辑距离cache存储的编辑距离计算结果进行编辑距离纠错。所述各种纠错之间彼此是独立进行的,并无顺序依赖关系。
3.所述纠错模块反馈纠错结果生成落地日志发送至所述用户反馈及分析模块。
4.所述用户反馈及分析模块接收所述落地日志。
5.所述用户反馈及分析模块对落地日志进行同音字分析、模糊音分析、形近字分析、同义词分析、编辑距离分析。所述各种分析之间彼此是独立进行的,并无顺序依赖关系。
6.所述用户反馈及分析模块发送分析结果至存储于数据库中的拼音表、模糊音规则表、形近字表、同义词表、编辑距离cache中。
所述用户反馈及分析模块的同音字分析,如落地日志为“晚课的行情”,用户反馈及分析模块的同音字分析出“晚课”的拼音为“wanke”,再结合金融词汇得出用户可能想输入“万科”,将【“wanke”—>“万科”】存入拼音表。当再次输入“晚课的行情”时所述同音字纠错模块依据【“wanke”—>“万科”】,反馈“万科的行情”供用户确认。
所述用户反馈及分析模块的模糊音分析,如落地日志为“含情”,用户反馈及分析模块的模糊音分析出“han-qing”,再结合金融词汇得出用户可能想输入“hang-qing”获得“行情”,将【“han-qing”—>“hang-qing”】存入模糊音规则表。当再次输入“含情”时所述模糊音纠错模块依据【“han-qing”—>“hang-qing”】,反馈“行情”供用户确认。
所述用户反馈及分析模块的形近字分析,如落地日志为“汉王科枝”,用户反馈及分析模块的形近字分析出“科枝”,再结合金融词汇得出用户可能想输入“科技”,将【“科枝”—>“科技”】存入形近字规则表。当再次输入“汉王科枝”时所述模糊音纠错模块依据【“科枝”—>“科技”】,反馈“汉王科技”供用户确认。
所述用户反馈及分析模块的同义词分析,如落地日志为“中商百货的行情”,用户反馈及分析模块的同义词分析出“中商百货”,再结合金融词汇得出用户可能想输入“武汉中商”,将【“中商百货”—>“武汉中商”】存入同义词规则表。当再次输入“中商百货的行情”时所述模糊音纠错模块依据【“中商百货”—>“武汉中商”】,反馈“武汉中商的行情”供用户确认。
另外,本系统中还包括基础词更新平台,基础词更新平台是为了通过有限的人工干预来更好的辅助所述纠错模块的五个功能模块。
它主要起到以下几个作用:1,针对同音字纠错模块起到了维护拼音表的作用:拼音表即常见字和词的拼音列表,以结构化的格式存储,人工通过基础词更新平台动态的修改常见字和词的读音;2.针对模块(2)它起到了维护模糊音纠错规则的作用:模糊音纠错规则指的是纠正字词发音中常见及不常见的发音错误规则,比如通常通过语音识别可能会产生的平舌音翘舌音上的误判“sh”和“s”,那么“sh”到“s”以及“s”到“sh”就可以称为两个模糊音的纠错规则,同理“h”和“f”对于江浙一带的人群也是一个模糊音纠错规则;3.针对模块(3)它起到了维护形近字表的作用:例如“巨”和“臣”;4. 针对模块(5)它起到了维护同义词表的作用:例如“中商百货”和“武汉中商”实质上指的是一只股票。
基础词更新平台也可以人工干预编辑距离相关cache。
如图2所示实施例,所述编辑距离纠错模块依据编辑距离cache存储的编辑距离计算结果进行编辑距离纠错包括,
所述编辑距离纠错模块获取所述输入内容中的分词;
所述分词同存储于数据库的词汇表中的词进行编辑距离计算,判断编辑距离cache是否存在该分词的编辑距离计算结果;如果有,选择编辑距离计算结果最短的进行匹配分析;如果无,计算该单个分词与词汇表中的所有词的编辑距离,将排序结果存入cache。
如果单个分词的编辑距离确实不在cache中,那么用户的命名实体识别流程将继续进行,只是对这个单个分词的编辑分析距离计算会由异步线程继续执行,如果这个词确实和系统维护的金融专业词汇表中的一项或几项极为接近,则结果会被保存入cache中,当下一个用户输入中带有同样的词项时,编辑距离最小的金融词汇会被作为推荐结果参与到后续的语义分析中。
如图3所示实施例,以“晚课的含情”为例:
1.输入装置获取用户输入内容“晚课的含情”并传送至线上服务器的纠错模块。
2.所述纠错模块中的同音字纠错模块对“晚课”分析得出拼音“wanke”—>“万科”,,获得“万科”;所述纠错模块中的模糊音纠错模块对“含情”分析得出拼音“han-qing”—>“hang-qing”—>“行情”,获得“行情”;反馈给用户:是否想询问“万科的行情”,同时反馈给用户万科股票的分时图、涨跌情况等。
3.用户对反馈进行确认操作。
4.生成落地日志。
5.所述用户反馈及分析模块接收所述落地日志。
6.所述用户反馈及分析模块接收所述落地日志进行分析,进行同音字分析并出“晚课-万科”,进行模糊音分析出“含情-行情”纠错信息。
7.所述用户反馈及分析模块将所述“晚课-万科”纠错信息存入拼音表中;将“含情-行情”纠错信息存入模糊音规则表中。
8.所述拼音表、模糊音规则表进行更新,便于下次纠错时同音字纠错模块、模糊音纠错模块使用。
应理解,上述实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解为在阅读本发明的内容后,本领域技术人员可以对本发明作各种改动和修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims (9)

1.一种命名实体识别过程中纠错的方法,其特征在于,所述方法包括:
纠错模块获取输入内容进行纠错;
所述用户反馈及分析模块接收所述落地日志;
所述用户反馈及分析模块对落地日志进行同音字分析、模糊音分析、形近字分析、同义词分析、编辑距离分析;
所述用户反馈及分析模块发送分析结果至存储于数据库中的拼音表、模糊音规则表、形近字表、同义词表、编辑距离cache中。
2.根据权利要求1所述的一种命名实体识别过程中纠错的方法,其特征在于,所述纠错模块获取输入内容进行纠错包括:
输入装置获取用户输入内容并传送至线上服务器的纠错模块,所述纠错模块包括同音字纠错模块、模糊音纠错模块、形近字纠错模块、同义词纠错模块、编辑距离纠错模块;
所述纠错模块对所述用户输入内容进行同音字纠错、模糊音纠错、形近字纠错、同义词纠错、编辑距离纠错。
3.根据权利要求2所述的一种命名实体识别过程中纠错的方法,其特征在于,所述纠错模块对所述用户输入内容进行同音字纠错、模糊音纠错、形近字纠错、同义词纠错、编辑距离纠错包括:
所述同音字纠错模块依据所述拼音表进行同音字纠错、所述模糊音纠错模块依据所述模糊音规则表进行模糊音纠错、所述形近字纠错模块依据形近字表进行形近字纠错、所述同义词纠错模块依据同义词表进行同义词纠错、所述编辑距离纠错模块依据编辑距离cache存储的编辑距离计算结果进行编辑距离纠错。
4.根据权利要求3所述的一种命名实体识别过程中纠错的方法,其特征在于,所述编辑距离纠错模块依据编辑距离cache存储的编辑距离计算结果进行编辑距离纠错包括,
所述编辑距离纠错模块获取所述输入内容中的分词;
所述分词同存储于数据库的词汇表中的词进行编辑距离计算,判断编辑距离cache是否存在该分词的编辑距离计算结果;如果有,选择编辑距离计算结果最短的进行匹配分析;如果无,计算该单个分词与词汇表中的所有词的编辑距离,将排序结果存入cache。
5.一种命名实体识别过程中纠错的系统,所述系统包括输入装置、纠错模块、用户反馈及分析模块、数据库,其特征在于,包括:
所述输入装置用于获取输入内容;
所述纠错模块包括,
同音字纠错模块:根据存储在数据库的拼音表识别出同音但不同字的输入错误;
模糊音纠错模块:根据存储在数据库的模糊音规则表识别出拼写的输入错误;
形近字纠错模块:根据存储在数据库的形近字表识别出形近字字的输入错误
同义词纠错模块:根据存储在数据库的同义词表识别出同义词的输入错误;
编辑距离纠错模块:根据存储在数据库的编辑距离cache中各个单词的编辑距离计算出最短编辑距离;
所述用户反馈及分析模块用于分析所述落地日志包含的同音字、模糊音、形近字、同义词、编辑距离,并更新拼音表、模糊音规则表、形近字表、同义词表、编辑距离cache;
所述数据库用于存储所述拼音表、模糊音规则表、形近字表、同义词表、编辑距离cache。
6.一种存储设备,其存储适用于处理器加载和执行的指令,其指令为:
纠错模块获取输入内容进行纠错;
所述用户反馈及分析模块接收所述落地日志;
所述用户反馈及分析模块对落地日志进行同音字分析、模糊音分析、形近字分析、同义词分析、编辑距离分析;
所述用户反馈及分析模块发送分析结果至存储于数据库中的拼音表、模糊音规则表、形近字表、同义词表、编辑距离cache中。
7.根据权利要求6所述的一种存储设备,其特征在于,纠错模块获取输入内容进行纠错包括:
输入装置获取用户输入内容并传送至线上服务器的纠错模块,所述纠错模块包括同音字纠错模块、模糊音纠错模块、形近字纠错模块、同义词纠错模块、编辑距离纠错模块;
所述纠错模块对所述用户输入内容进行同音字纠错、模糊音纠错、形近字纠错、同义词纠错、编辑距离纠错;
所述纠错模块反馈纠错结果。
8.一种移动终端设备,包括处理器、存储设备,所述处理器适于加载和执行指令,所述存储设备适用于存储多条指令,所述指令适于由处理器加载并执行;
纠错模块获取输入内容进行纠错;
所述用户反馈及分析模块接收所述落地日志;
所述用户反馈及分析模块对落地日志进行同音字分析、模糊音分析、形近字分析、同义词分析、编辑距离分析;
所述用户反馈及分析模块发送分析结果至存储于数据库中的拼音表、模糊音规则表、形近字表、同义词表、编辑距离cache中。
9.根据权利要求8所述的一种移动终端设备,其特征在于,纠错模块获取输入内容进行纠错包括:
输入装置获取用户输入内容并传送至线上服务器的纠错模块,所述纠错模块包括同音字纠错模块、模糊音纠错模块、形近字纠错模块、同义词纠错模块、编辑距离纠错模块;
所述纠错模块对所述用户输入内容进行同音字纠错、模糊音纠错、形近字纠错、同义词纠错、编辑距离纠错;
所述纠错模块反馈纠错结果。
CN201710992016.9A 2017-10-23 2017-10-23 一种命名实体识别过程中纠错的方法及系统 Pending CN107766327A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710992016.9A CN107766327A (zh) 2017-10-23 2017-10-23 一种命名实体识别过程中纠错的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710992016.9A CN107766327A (zh) 2017-10-23 2017-10-23 一种命名实体识别过程中纠错的方法及系统

Publications (1)

Publication Number Publication Date
CN107766327A true CN107766327A (zh) 2018-03-06

Family

ID=61269949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710992016.9A Pending CN107766327A (zh) 2017-10-23 2017-10-23 一种命名实体识别过程中纠错的方法及系统

Country Status (1)

Country Link
CN (1) CN107766327A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165384A (zh) * 2018-08-23 2019-01-08 成都四方伟业软件股份有限公司 一种命名实体识别方法及装置
CN110188353A (zh) * 2019-05-28 2019-08-30 百度在线网络技术(北京)有限公司 文本纠错方法及装置
CN111554295A (zh) * 2020-04-24 2020-08-18 科大讯飞(苏州)科技有限公司 文本纠错方法、相关设备及可读存储介质
CN112417851A (zh) * 2020-11-26 2021-02-26 新智认知数据服务有限公司 文本纠错分词方法、系统及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246714A (zh) * 2013-04-26 2013-08-14 中国科学院计算技术研究所 基于错误模式挖掘的中文搜索引擎查询纠错方法及系统
CN103942223A (zh) * 2013-01-23 2014-07-23 北京百度网讯科技有限公司 一种对语言模型进行在线纠错的方法及系统
CN104166462A (zh) * 2013-05-17 2014-11-26 北京搜狗科技发展有限公司 一种文字的输入方法和系统
CN106095778A (zh) * 2016-05-26 2016-11-09 达而观信息科技(上海)有限公司 搜索引擎的中文搜索词自动纠错方法
CN106326484A (zh) * 2016-08-31 2017-01-11 北京奇艺世纪科技有限公司 搜索词纠错方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942223A (zh) * 2013-01-23 2014-07-23 北京百度网讯科技有限公司 一种对语言模型进行在线纠错的方法及系统
CN103246714A (zh) * 2013-04-26 2013-08-14 中国科学院计算技术研究所 基于错误模式挖掘的中文搜索引擎查询纠错方法及系统
CN104166462A (zh) * 2013-05-17 2014-11-26 北京搜狗科技发展有限公司 一种文字的输入方法和系统
CN106095778A (zh) * 2016-05-26 2016-11-09 达而观信息科技(上海)有限公司 搜索引擎的中文搜索词自动纠错方法
CN106326484A (zh) * 2016-08-31 2017-01-11 北京奇艺世纪科技有限公司 搜索词纠错方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165384A (zh) * 2018-08-23 2019-01-08 成都四方伟业软件股份有限公司 一种命名实体识别方法及装置
CN110188353A (zh) * 2019-05-28 2019-08-30 百度在线网络技术(北京)有限公司 文本纠错方法及装置
CN110188353B (zh) * 2019-05-28 2021-02-05 百度在线网络技术(北京)有限公司 文本纠错方法及装置
CN111554295A (zh) * 2020-04-24 2020-08-18 科大讯飞(苏州)科技有限公司 文本纠错方法、相关设备及可读存储介质
CN112417851A (zh) * 2020-11-26 2021-02-26 新智认知数据服务有限公司 文本纠错分词方法、系统及电子设备
CN112417851B (zh) * 2020-11-26 2024-05-24 新智认知数据服务有限公司 文本纠错分词方法、系统及电子设备

Similar Documents

Publication Publication Date Title
JP6802268B2 (ja) 自然言語出力において自然言語信号を提供するための自然言語プロセッサ
Gibbon et al. Handbook of standards and resources for spoken language systems
Jones et al. Evaluating natural language processing systems: An analysis and review
US10573315B1 (en) Tailoring an interactive dialog application based on creator provided content
US20180157960A1 (en) Scalable curation system
CN107766327A (zh) 一种命名实体识别过程中纠错的方法及系统
Liu et al. Cross-domain slot filling as machine reading comprehension: A new perspective
de-Dios-Flores et al. The Nós Project: Opening routes for the Galician language in the field of language technologies
CN117009113A (zh) 人工智能模型的调用方法、装置、计算机设备及存储介质
KR101894700B1 (ko) 음성인식을 이용한 고객 상담용 전문지식 자동검색 방법
Shin et al. Enabling effective design of multimodal interfaces for speech-to-speech translation system: An empirical study of longitudinal user behaviors over time and user strategies for coping with errors
Kiesel et al. Simulating Follow-Up Questions in Conversational Search
Rayner et al. Handling ellipsis in a spoken medical phraselator
Ali et al. Toward designing a realistic conversational system: a survey
US11995414B1 (en) Automatic post-editing systems and methods
Poulin et al. Speech Database (Speech-DB)–An on-line platform for storing, validating, searching, and recording spoken language data
Purim et al. Active Learning for Natural Language Data Annotation
JP2010092257A (ja) 敬語表現修正装置及びそれを用いた受付回答支援システム
Boynagryan et al. AI Writing Assistant: A Comprehensive Study
Kholkar et al. Semi-automated creation of regulation rule bases using generic template-driven rule extraction.
Griol et al. Fusion of sentiment analysis and emotion recognition to model the user's emotional state
Nasim et al. Requirement Elicitation using Natural Language Processing
Gareta Casas Can large language models replace human in speech analysis?
Akinyemi et al. Automation of Customer Support System (Chatbot) to Solve Web Based Financial and Payment Application Service
KR20220089137A (ko) 학습용 대화 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180306

WD01 Invention patent application deemed withdrawn after publication