CN111324214A - 一种语句纠错方法和装置 - Google Patents

一种语句纠错方法和装置 Download PDF

Info

Publication number
CN111324214A
CN111324214A CN201811544970.2A CN201811544970A CN111324214A CN 111324214 A CN111324214 A CN 111324214A CN 201811544970 A CN201811544970 A CN 201811544970A CN 111324214 A CN111324214 A CN 111324214A
Authority
CN
China
Prior art keywords
participle
semantic
corrected
participles
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811544970.2A
Other languages
English (en)
Inventor
王丹
崔欣
张扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201811544970.2A priority Critical patent/CN111324214A/zh
Publication of CN111324214A publication Critical patent/CN111324214A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods

Abstract

本申请实施例公开了一种语句纠错方法及装置,在确定出待纠错语句的依存关系后,可以进一步识别具有依存关系的分词间是否存在语义关系,如果具有依存关系的第一分词和第二分词间不存在语义关系,可以确定第一分词和第二分词虽然在依存关系上可能合理,但是语义层面上并不搭配,具有语义不合理的问题,由此可以从第一分词和第二分词中确定出待纠错分词,并根据待纠错分词确定纠错结果,从而实现对用户输入语句在语义层面上的纠错,丰富了纠错层面,更好的满足当前的纠错需求。

Description

一种语句纠错方法和装置
技术领域
本申请涉及数据处理领域,特别是涉及语句纠错。
背景技术
输入法可以对用户输入的语句进行纠错,用户通过选择输入法提供的纠错候选项可以快速修正输入错误,从而提高输入准确性和降低改错成本。
输入法所要纠错的语句可以是已经上屏的语句,也可以是尚未上屏的语句,该语句包括多个分词。在传统方式中,对语句进行纠错的依据主要是通过语句中分词间的依存关系进行,若通过依存关系识别语句中出现结构错误,可以进行纠错。
然而,通过依存关系仅能识别语句结构是否合理,纠错层面局限,难以满足当前的纠错需求。
发明内容
为了解决上述技术问题,本申请提供了一种语句纠错方法及装置。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例提供了一种语句纠错方法,所述方法包括:
确定待纠错语句中各分词间的依存关系;
根据所确定依存关系识别依存关系下分词间的语义关系;
若具有目标依存关系的第一分词和第二分词间不存在语义关系,从所述第一分词和所述第二分词中确定待纠错分词;所述目标依存关系为所确定依存关系中的任意一个;
确定所述待纠错分词的纠错结果。
可选的,所述根据所确定依存关系识别依存关系下分词间的语义关系,包括:
根据所述语义关系库识别所确定依存关系下分词间的语义关系;所述语义关系库是通过分析历史数据中分词间的语义关系构建的。
可选的,所述根据所述语义关系库识别所确定依存关系下分词间的语义关系,包括:
根据所述待纠错语句所涉及的领域确定对应所述领域的语义关系库;对应所述领域的语义关系库是通过分析所述领域的历史数据中分词间的语义关系构建的;
根据对应所述领域的语义关系库识别所确定依存关系下分词间的语义关系。
可选的,所述从所述第一分词和所述第二分词中确定待纠错分词,包括:
若确定第三分词和所述第二分词间存在语义关系、且与所述第一分词存在语义关系的分词和所述第二分词之间的编辑距离大于或者等于第一预设条件,将所述第一分词确定为所述待纠错分词;
所述确定所述待纠错分词的纠错结果,包括:
将所述第三分词确定为所述待纠错分词的纠错结果。
可选的,所述第一分词与所述第三分词之间的编辑距离小于第二预设条件。
可选的,所述第三分词是根据所述待纠错语句的语义场景确定。
可选的,所述从所述第一分词和所述第二分词中确定待纠错分词,包括:
若确定第三分词和所述第二分词间存在语义关系、且所述第三分词与所述第一分词的编辑距离小于第三预设条件,第四分词和所述第一分词间存在语义关系、且所述第四分词与所述第二分词的编辑距离小于第三预设条件,将所述第三分词与所述第一分词的编辑距离与所述第四分词与所述第二分词的编辑距离进行大小判断;
若所述第三分词与所述第一分词的编辑距离小于所述第四分词与所述第二分词的编辑距离,将所述第一分词确定为所述待纠错分词;
所述确定所述待纠错分词的纠错结果,包括:
将所述第三分词确定为所述待纠错分词的纠错结果。
第二方面,本申请实施例提供了一种语句纠错装置,所述装置包括:
第一确定单元,用于确定待纠错语句中各分词间的依存关系;
识别单元,用于根据所确定依存关系识别依存关系下分词间的语义关系;
第三确定单元,用于若具有目标依存关系的第一分词和第二分词间不存在语义关系,从所述第一分词和所述第二分词中确定待纠错分词;所述目标依存关系为所确定依存关系中的任意一个;
第四确定单元,用于确定所述待纠错分词的纠错结果。
可选的,所述识别单元,具体用于:
根据所述语义关系库识别所确定依存关系下分词间的语义关系;所述语义关系库是通过分析历史数据中分词间的语义关系构建的。
可选的,所述根据所述语义关系库识别所确定依存关系下分词间的语义关系,包括:
根据所述待纠错语句所涉及的领域确定对应所述领域的语义关系库;对应所述领域的语义关系库是通过分析所述领域的历史数据中分词间的语义关系构建的;
根据对应所述领域的语义关系库识别所确定依存关系下分词间的语义关系。
可选的,所述从所述第一分词和所述第二分词中确定待纠错分词,包括:
若确定第三分词和所述第二分词间存在语义关系、且与所述第一分词存在语义关系的分词和所述第二分词之间的编辑距离大于或者等于第一预设条件,将所述第一分词确定为所述待纠错分词;
所述确定所述待纠错分词的纠错结果,包括:
将所述第三分词确定为所述待纠错分词的纠错结果。
可选的,所述第一分词与所述第三分词之间的编辑距离小于第二预设条件。
可选的,所述第三分词是根据所述待纠错语句的语义场景确定。
可选的,所述从所述第一分词和所述第二分词中确定待纠错分词,包括:
若确定第三分词和所述第二分词间存在语义关系、且所述第三分词与所述第一分词的编辑距离小于第三预设条件,第四分词和所述第一分词间存在语义关系、且所述第四分词与所述第二分词的编辑距离小于第三预设条件,将所述第三分词与所述第一分词的编辑距离与所述第四分词与所述第二分词的编辑距离进行大小判断;
若所述第三分词与所述第一分词的编辑距离小于所述第四分词与所述第二分词的编辑距离,将所述第一分词确定为所述待纠错分词;
所述确定所述待纠错分词的纠错结果,包括:
将所述第三分词确定为所述待纠错分词的纠错结果。
第三方面,本申请实施例提供了一种语句纠错设备,所述设备包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定待纠错语句中各分词间的依存关系;
根据所确定依存关系识别依存关系下分词间的语义关系;
若具有目标依存关系的第一分词和第二分词间不存在语义关系,从所述第一分词和所述第二分词中确定待纠错分词;所述目标依存关系为所确定依存关系中的任意一个;
确定所述待纠错分词的纠错结果。
第四方面,本申请实施例提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行以上第一当面所述的一个或多个语句纠错方法。
由上述技术方案可以看出,在确定出待纠错语句的依存关系后,可以进一步识别具有依存关系的分词间是否存在语义关系,如果具有依存关系的第一分词和第二分词间不存在语义关系,可以确定第一分词和第二分词虽然在依存关系上可能合理,但是语义层面上并不搭配,具有语义不合理的问题,由此可以从第一分词和第二分词中确定出待纠错分词,并根据待纠错分词确定纠错结果,从而实现对用户输入语句在语义层面上的纠错,丰富了纠错层面,更好的满足当前的纠错需求。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种语句纠错的方法的流程示意图;
图2为本申请实施例提供的一种语句纠错的装置的结构示意图;
图3为本申请实施例提供的一种语句纠错的装置的结构示意图;
图4为本申请实施例提供的一种语句纠错的设备的结构示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
在传统的纠错方式中,对语句进行纠错的依据主要是分析语句中各分词间的依存关系,通过依存关系判断语句的结构上是否存在错误,若确定语句的结构存在错误,则进行纠错。
可以理解的是,语句是否存在错误,不仅仅与语句的结构这一个因素有关,还与分词之间的语义有关。对于结构不存在错误的语句,其语义上可能存在错误。例如,对于语句“陈慧琳的《千千阙歌》真好听”,其结构上并无错误,但是,由于歌曲“千千阙歌”的演唱者不是陈慧琳,因此,该语句存在语义上的错误。对于这种结构上没有错误、语义上存在错误的语句,传统的纠错方法无法进行纠错。
鉴于此,本申请实施例提供了一种语句纠错方法及装置,可以实现对语句的在语义层面上的纠错,丰富了纠错层面,更好的满足当前的纠错需求。
接下来结合附图说明本申请实施例提供的语句纠错方法。
参见图1,该图为本申请实施例提供的一种语句纠错方法的流程示意图。
本申请实施例提供的方法,例如可以通过S101-S104实现。
S101:确定待纠错语句中各分词之间的依存关系。
在本申请实施例中,所述待纠错语句,可以是用户通过输入法系统输入的语句。所述待纠错语句可以是已经上屏的语句,也可以是尚未上屏的语句,本申请实施例不做具体限定。
在本申请实施例中,所述待纠错语句可以包括若干个分词。所述分词可以通过对所述待纠错语句进行分词处理得到。所述分词可以由一个或者若干个字符组成。本申请实施例不具体限定所述分词所包含的字符个数。所述分词的所包含的字符个数的确定方式,可以以所述分词可以具有完整的意思表示为准确定。
举例说明,对于待纠错语句“陈慧琳的《千千阙歌》真好听”而言,该待纠错语句可以包括“陈慧琳”、“的”、“《”、“千千阙歌”、“》”、“真”以及“好听”这几个分词。其中,除了表示符号和连接词的分词之外的各个分词都具有完整的意思表示,例如分词“陈慧琳”表示歌手的名字,分词“千千阙歌”表示歌曲名。对于待纠错语句“爱因斯坦说过:“如果你年轻的时候没有学会思考,那么就永远学不会思考””,该待纠错语句可以包括“爱因斯坦”、“说”、“过”、以及“如果你年轻的时候没有学会思考,那么就永远学不会思考”这几个分词。其中,各个分词都具有完整的意思表示,例如分词“爱因斯坦”为人名,分词“如果你年轻的时候没有学会思考,那么就永远学不会思考”为对应的格言。
在本申请实施例中,所述待纠错语句中各个分词之间的依存关系,可以体现所述待纠错语句的结构。
需要说明的是,本申请实施例中提及的分词之间的依存关系,可以为两个分词之间的依存关系,也可以为三个分词之间的对应关系,甚至是多个分词之间的对应关系。在本申请实施例的以下描述中,均以两个分词之间的依存关系为例进行说明。
本申请实施例不具体限定所述待纠错语句的结构,换言之,本申请实施例不具体限定待纠错语句中所包含的分词间依存关系的类型。所述各个分词之间的依存关系包括但不限于:当事关系、状中结构、定中关系、核心关系以及主谓关系等等。
本申请实施例不具体限定确定待纠错语句中各分词之间的依存关系的具体实现方式,以下介绍两种可能实现方式。
在一种可能的实现方式中,可以利用依存语法(Dependency Parsing,DP)分析各分词之间的依存关系。关于所确定依存关系,现以待纠错语句为“陈慧琳的《千千阙歌》真好听”为例进行说明,见表1。
表1
Figure BDA0001909117550000061
Figure BDA0001909117550000071
在又一种可能的实现方式中,可以利用语义依存句法分析(Semantic DependencyParsing,SDP),分析各个分词之间的语义关联,并将语义关联以依存关系的方式呈现。
关于所确定依存关系下分词间的语义关系,现以待纠错语句为“陈慧琳的《千千阙歌》真好听”为例进行说明,见表2。
表2
分词1 分词2 依存关系
陈慧琳 的字标记
陈慧琳 千千阙歌 领事关系
千千阙歌 标点标记
千千阙歌 标点标记
好听 千千阙歌 当事关系
好听 程度标记
需要说明的是,在本申请实施例中,关于确定依存关系的具体实现,可以从以上两种实现方式中任选一种,也可以两种方法均采用,本申请实施例不做具体限定。
S102:根据所确定依存关系识别依存关系下分词间的语义关系。
本申请实施例中提及的分词间的语义关系,在一定程度上可以表征所述分词间的搭配关系。
在本申请实施例中,识别依存关系下分词间的语义关系,是指,识别依存关系下分词间是否存在语义关系。此处提及的分词间存在语义关系,是指分词间的在语义上搭配合理。
在本申请实施例的一种可能的实现方式中,识别依存关系下分词间的语义关系,在具体实现时,可以根据语义关系库识别所述确定依存关系下分词间的语义关系。
在本申请实施例中,所述语义识别库中存储有存在语义关系的分词之间的对应关系,因此,确定出依存关系之后,即可查询语义关系库中是否存在该依存关系下分词间的对应关系,若存在,则可以确定所述依存关系下的分词间存在语义关系;若不存在,则可以确定出所述依存关系下的分词间不具有语义关系。
在本申请实施例中,所述语义识别库可以是预先构建的,具体地,所述语义识别库可以是通过分析历史数据中分词间的语义关系构建的。
需要说明的是,所述历史数据可以包括用户通过输入法系统输入的数据,所述历史数据也可以包括已经存在的数据资料、文学典籍等数据。
本申请实施例不具体限定构建所述语义知识库的具体实现方式,作为一种示例,可以利用web页面挖掘所述历史数据,然后对这些历史数据中的语句进行句法分析,并统计这些语句中包含的语义关系,将符合要求的语义关系例如出现频度较高语义关系放入语义关系库中。
可以理解的是,在实际应用中,各领域可能存在其特定的分词搭配关系。在一个领域或特定场景中存在语义关系的两个分词,在另一个领域或其他场景中可能并不存在语义关系。例如,游戏领域的一个APP为“消灭星星”,即在该APP所对应游戏的特定场景中,分词“消灭”和分词“星星”的搭配是合理的;而在其它领域或场景中,分词“消灭”和分词“星星”之间的搭配并不合理。因此,若采用一个通用的语义关系库,而不考虑各个领域中分词搭配关系的差异,有可能使得识别出的分词间的语义关系不够准确。
鉴于此,在本申请实施例中,为了提高识别依存关系下分词间语义关系的准确率,在构建语义关系库时,可以为各个领域甚至特定场景构建对应的语义关系库。这样一来,在根据语义关系库识别所述确定依存关系下分词间的语义关系时,可以首先确定待纠错语句所涉及的领域,然后确定对应所述领域的语义关系库,最后根据对应所述领域的语义关系库识别所确定依存关系下分词间的语义关系。
可以理解的是,对应所述领域的语义识别库中,存储有该领域下存在语义关系的分词之间的对应关系。因此,根据对应所述领域的语义关系库识别所确定依存关系下分词间的语义关系在具体实现时,即可查询对应所述领域的语义关系库中是否存在该依存关系下分词间的对应关系,若存在,则可以确定所述依存关系下的分词间存在语义关系;若不存在,则可以确定出所述依存关系下的分词间不具有语义关系。
需要说明的是,本申请实施例不具体限定所述待纠错语句所涉及领域的数量,例如可以根据待纠错语句确定出所涉及的多个领域,例如可以包括:游戏领域、医学领域以及互联网领域等等。
本申请实施例不具体限定确定待纠错语句所涉及的领域的具体实现方式,作为一种示例,可以对所述待纠错语句进行语义分析,从而确定所述待纠错语句所涉及的领域。作为又一种示例,可以根据所述待纠错语句的上下文语句,确定所述待纠错语句所涉及的领域。作为另一种示例,可以根据用户输入所述待纠错语句的场景,确定所述待纠错语句所涉及的领域,例如,所述待纠错语句是用户在游戏界面中输入的,则可以将所述待纠错语句算涉及的领域确定为游戏领域。
考虑到一些语义关系可能与时效性有关,在本申请实施例中,为了使得所述语义识别库能够体现当前存在的语义关系,从而为所述待纠错语句提供更加准确的纠错结果。还可以对所述语义识别库进行更新,将一些曾经具有语义关系,以后可能不再具有语义关系的分词的对应关系从所述语义识别库中删除。
S103:若具有目标依存关系的第一分词和第二分词间不存在语义关系,从所述第一分词和所述第二分词中确定待纠错分词;所述目标依存关系为所述确定依存关系中的任意一个。
S104:确定所述待纠错分词的纠错结果。
关于S103和S104,需要说明的是,在本申请实施例中,所述第一分词和第二分词之间具有目标依存关系,可以理解为所述第一分词和第二分词在依存关系上是合理的。所述第一分词和所述第二分词之间不存在语义关系,可以理解为所述第一分词和所述第二分词在语义层面并不搭配。即所述第一分词和所述第二分词之间的语义并不合理。
也就是说,若具有目标依存关系的第一分词和第二分词间不存在语义关系,则可以确定所述第一分词和所述第二分词之间的搭配不合理,第一分词和第二分词中至少一个分词可能属于用户错输。因此,可以从第一分词和第二分词中确定出待纠错分词。其中,所述待纠错分词是指导致所述第一分词和第二分词之间不存在语义关系的分词,即所述待纠错分词是指导致所述第一分词和第二分词之间搭配不合理的分词。
确定出待纠错分词之后,即可对待纠错分词进行纠错,确定出待纠错结果,使得包含所述待纠错结果的目标依存关系下的分词间存在语义关系。具体地,若所述待纠错分词为第一分词,则使得所述纠错结果和所述第二分词之间存在语义关系;若所述待纠错分词为第二分词,则使得所述纠错结果和所述第一分词之间存在语义关系。
举例说明,第一分词“爱因斯坦”和第二分词“如果你年轻的时候没有学会思考,那么就永远学不会思考”之间具有目标依存关系,但是第一分词“爱因斯坦”和第二分词“如果你年轻的时候没有学会思考,那么就永远学不会思考”之间不存在语义关系,因为“如果你年轻的时候没有学会思考,那么就永远学不会思考”是爱迪生的格言。因此,可以确定出导致所述第一分词和第二分词之间不存在语义关系的分词例如第一分词“爱因斯坦”,并确定纠错结果为“爱迪生”,这样一来,纠错结果“爱迪生”和第二分词“导致所述第一分词和第二分词之间不存在语义关系的分词”之间存在语义关系,从而达到了语义纠错的目的。
通过以上描述可知,利用本申请实施例提供的语句纠错方法,在确定出待纠错语句的依存关系后,可以进一步识别具有依存关系的分词间是否存在语义关系,如果具有目标依存关系的第一分词和第二分词间不存在语义关系,可以确定第一分词和第二分词虽然在依存关系上可能合理,但是语义层面上并不搭配,具有语义不合理的问题,由此可以从第一分词和第二分词中确定出待纠错分词,并根据待纠错分词确定纠错结果,从而实现对用户输入语句在语义层面上的纠错,丰富了纠错层面,更好的满足当前的纠错需求。
在本申请实施例中,S103中“从所述第一分词和所述第二分词中确定待纠错分词”在具体实现时,可以有多种实现方式,以下介绍两种可能的实现方式。
第一种实现方式:
若确定第三分词和所述第二分词间存在语义关系、且与所述第一分词存在语义关系的分词和所述第二分词之间的编辑距离大于或者等于第一预设条件,将所述第一分词确定为所述待纠错分词。
需要说明的是,两个分词之间的编辑距离,用于体现两个分词在字形、拼音以及语义等方面的相似程度,相似程度越高,编辑距离越小,相似程度越低,编辑距离越大。
在本申请实施例的一种实现方式中,两个分词之间的编辑距离,可以体现为将一个分词对应的字符串转换成另一个分词对应的字符串所需的最少编辑操作次数。其中,一般的编辑操作可以包括将一个字符替换成另一个字符,插入一个字符,删除一个字符等等。例如将分词“陈慧琳”的最后一个字符替换成“娴”就得到了分词“陈慧娴”;又如,将分词“浇”对应的拼音为“jiao”转换为“shao”,即可得到分词“烧”;再如,将分词“浇”进行字形转换得到分词“烧”;等等。
在本申请实施例的又一种实现方式中,两个分词之间的编辑距离,可以体现为这两个分词的词嵌入向量之间的距离。
为方便描述,将“与所述第一分词存在语义关系的分词”称为“目标分词”,则目标分词与第二分词之间的编辑距离大于或者等于第一预设条件,在一定程度上可以表征目标分词和第二分词的词嵌入向量之间的距离比较大,或者在一定程度上可以表征将目标分词转换成第二分词所需的最少编辑次数比较多。而一般来讲,用户在输入语句时,将用户希望上屏的分词错输为与该分词的词嵌入向量比较接近的分词的可能性比较大,或者说,用户在输入语句时,将用户希望上屏的分词错输为与该分词之间进行转换所需最少编辑操作次数比较少的分词的可能性比较大。因此,目标分词与第二分词之间的编辑距离大于或者等于第一预设条件,在一定程度上可以表征第二分词是用户错输的分词的可能性比较小。
也就是说,第二分词是用户错输的分词的可能性比较小,而第三分词与第二分词之间又存在语义关系,即第一分词可能是导致第一分词和第二分词不存在语义关系的分词,对于这种情况,在本申请实施例中,可以将所述第一分词确定为待纠错分词。相应的,确定纠错结果时,由于第三分词和第二分词之间存在语义关系,因此,可以将与第二分词存在语义关系的第三分词作为纠错结果。
本申请实施例不具体限定所述第一预设条件,所述第一预设条件可以根据实际情况确定。
关于以上第一种实现方式,现举例说明,对于待纠错语句“爱因斯坦说过:“如果你年轻的时候没有学会思考,那么就永远学不会思考””,其中第一分词“爱因斯坦”和第二分词“如果你年轻的时候没有学会思考,那么就永远学不会思考”之间不存在语义关系,与第一分词具有语义关系的其它分词(即爱因斯坦的格言)与第二分词之间的编辑距离均比较大,则确定第二分词是用户错输的分词的可能性比较小,而第三分词“爱迪生”与第一分词之间存在语义关系。因此,可以确定第一分词为待纠错分词,相应的,可以将与第二分词存在语义关系的第三分词“爱迪生”作为第一分词的纠错结果。
如前文,用户在输入语句时,将用户希望上屏的分词错输为与该分词的词嵌入向量比较接近的分词的可能性比较大;或者说,用户在输入语句时,将用户希望上屏的分词错输为与该分词之间进行转换所需最少编辑操作次数比较少的分词的可能性比较大。因此,在本申请实施例的一种可能的实现方式中,所述第一分词和所述第三分词之间编辑距离小于第二预设条件。
可以理解的是,所述第三分词与所述第一分词的编辑距离小于第二预设条件,在一定程度上可以表征所第一分词和所述第三分词的词嵌入向量比较接近,又或者,可以表征将第一分词转换为第三分词所需的最少编辑次数比较少。即所述第一分词是由于用户在输入第三分词时由于输入错误而上屏的分词。
本申请实施例不具体限定所述第二预设条件,所述第二预设条件可以根据实际情况确定。
可以理解的是,在实际应用中,与第二分词存在语义关系的分词可能有很多,而这些分词与所述第二分词所构成的语义关系适用的语义场景可能不同。而对待纠错分词进行纠错,所述纠错结果应当与所述待纠错语句的语义场景相适应。因此,在本申请实施例中,将第三分词确定为所述待纠错分词的纠错结果时,所述第三分词可以是根据所述待纠错语句的语义场景来确定的。
举例说明,对于待纠错语句“在那次火灾中,他身上的皮肤很多部分都浇了”中的分词第二分词“皮肤”和第一分词“浇”之间不存在语义关系,而与第二分词“皮肤”存在语义关系的分词有很多,例如“好”、“光滑”以及“差”等等。而考虑到所述待纠错语句的语义场景为“在大火中”,因此,可以根据该语义场景确定所述待纠错分词“浇”的纠错结果为“烧”或者“焦”。
第二种实现方式:
若确定第三分词和所述第二分词间存在语义关系、且所述第三分词与所述第一分词的编辑距离小于第三预设条件,第四分词和所述第一分词间存在语义关系、且所述第四分词与所述第二分词的编辑距离小于第三预设条件,将所述第三分词与所述第一分词的编辑距离与所述第四分词与所述第二分词的编辑距离进行大小判断;
若所述第三分词与所述第一分词的编辑距离小于所述第四分词与所述第二分词的编辑距离,将所述第一分词确定为所述待纠错分词。
关于两个分词之间的编辑距离的相关描述,可以详见以上第一种实现方式中的相关描述,此处不再赘述。
可以理解的是,第三分词和所述第二分词间存在语义关系,在一定程度上可以表征所述第一分词可能是导致所述第一分词和所述第二分词不存在语义关系的分词。所述第三分词与所述第一分词的编辑距离小于第三预设条件,在一定程度上可以表征所述第一分词可能是用户输入第三分词时由于输入错误而上屏的分词。
相应的,第四分词和所述第一分词间存在语义关系,在一定程度上可以表征所述第二分词可能是导致所述第一分词和所述第二分词不存在语义关系的分词。所述第四分词与所述第二分词的编辑距离小于第三预设条件,在一定程度上可以表征所述第二分词可能是用户输入第四分词时由于输入错误而上屏的分词。
也就是说,若第三分词和所述第二分词间存在语义关系、且所述第三分词与所述第一分词的编辑距离小于第三预设条件,第四分词和所述第一分词间存在语义关系、且所述第四分词与所述第二分词的编辑距离小于第三预设条件,则说明第一分词和第二分词均有可能是用户输入错误而上屏的分词。对于这种情况,在本申请实施例中,在从第一分词和第二分词中确定待纠错分词时,可以比较第一可能性和第二可能性的大小,将所述可能性大所对应的分词作为待纠错分词。其中,所述第一可能性是指:第一分词是由于用户输入错误而上屏的分词的可能性;所述第二可能性是指:第二分词是由于用户输入错误而上屏的分词的可能性的大小。
具体地,在本申请实施例中,所述第一可能性可以用所述第一分词和所述第三分词之间的编辑距离来体现,所述第二可能性可以用所述第二分词和所述第四分词之间的编辑距离来体现。
如前文,用户在输入语句时,将用户希望上屏的分词错输为与该分词的词嵌入向量比较接近的分词的可能性比较大,或者说,用户在输入语句时,将用户希望上屏的分词错输为与该分词之间进行转换所需最少编辑操作次数比较少的分词的可能性比较大。因此,第一分词和所述第三分词之间的编辑距离越小,所述第一可能性越大,所述第二分词和所述第四分词之间的编辑距离越大,所述第二可能性越大。
鉴于此,在本申请实施例中,若所述第三分词与所述第一分词的编辑距离小于所述第四分词与所述第二分词的编辑距离,则说明,所述第一可能性大于所述第二可能性,故而将所述第一分词确定为所述待纠错分词。相应的,将与所述第二分词存在语义关系的第三分词作为纠错结果。
可以理解的是,若所述第三分词与所述第一分词的编辑距离大于所述第四分词与所述第二分词的编辑距离,则说明,所述第一可能性小于所述第二可能性,故而将所述第二分词确定为所述待纠错分词。相应的,将与所述第一分词存在语义关系的第四分词作为纠错结果。
本申请实施例不具体限定所述第三预设条件,所述第三预设条件可以根据实际情况确定。
关于以上第二种实现方式,现举例说明,对于待纠错语句“陈慧琳的《千千阙歌》真好听”,其中第一分词“陈慧琳”和第二分词“千千阙歌”不存在语义关系。而第三分词“陈慧娴”与第二分词存在语义关系,且第三分词“陈慧娴”和第一分词“陈慧琳”之间的编辑距离比较小,小于第三预设条件;第四分词“千手千寻”与第一分词存在语义关系,且第四分词“千手千寻”与第二分词“千千阙歌”之间的编辑距离比较小,小于第三预设条件。由于第三分词“陈慧娴”和第一分词“陈慧琳”之间的编辑距离,小于第四分词“千手千寻”与第二分词“千千阙歌”之间的编辑距离,即用户将第三分词“陈慧娴”错输为第一分词“陈慧琳”的可能性,大于用户将第四分词“千手千寻”错输为第二分词“千千阙歌”的可能性。因此,可以确定第一分词为由于用户输入错误而上屏的分词,从而可以将第一分词“陈慧琳”确定为待纠错分词,并将于所述第二分词“千千阙歌”存在语义关系的第三分词“陈慧娴”作为纠错结果。
基于以上实施例提供的语句纠错方法,本申请实施例还提供了一种语句纠错装置,以下结合附图介绍该装置。
参见图2,该图为本申请实施例提供的一种语句纠错装置的结构示意图。
本申请实施例提供的语句纠错装置200,例如可以包括:第一确定单元210、识别单元220、第三确定单元230和第四确定单元240。
第一确定单元210,用于确定待纠错语句中各分词间的依存关系;
识别单元220,用于根据所确定依存关系识别依存关系下分词间的语义关系;
第三确定单元230,用于若具有目标依存关系的第一分词和第二分词间不存在语义关系,从所述第一分词和所述第二分词中确定待纠错分词;所述目标依存关系为所确定依存关系中的任意一个;
第四确定单元240,用于确定所述待纠错分词的纠错结果。
在一种可能的实现方式中,所述识别单元220,具体用于:
根据所述语义关系库识别所确定依存关系下分词间的语义关系;所述语义关系库是通过分析历史数据中分词间的语义关系构建的。
在一种可能的实现方式中,所述根据所述语义关系库识别所确定依存关系下分词间的语义关系,包括:
根据所述待纠错语句所涉及的领域确定对应所述领域的语义关系库;对应所述领域的语义关系库是通过分析所述领域的历史数据中分词间的语义关系构建的;
根据对应所述领域的语义关系库识别所确定依存关系下分词间的语义关系。
在一种可能的实现方式中,所述从所述第一分词和所述第二分词中确定待纠错分词,包括:
若确定第三分词和所述第二分词间存在语义关系、且与所述第一分词存在语义关系的分词和所述第二分词之间的编辑距离大于或者等于第一预设条件,将所述第一分词确定为所述待纠错分词;
所述确定所述待纠错分词的纠错结果,包括:
将所述第三分词确定为所述待纠错分词的纠错结果。
在一种可能的实现方式中,所述第一分词与所述第三分词之间的编辑距离小于第二预设条件。
在一种可能的实现方式中,所述第三分词是根据所述待纠错语句的语义场景确定。
在一种可能的实现方式中,所述从所述第一分词和所述第二分词中确定待纠错分词,包括:
若确定第三分词和所述第二分词间存在语义关系、且所述第三分词与所述第一分词的编辑距离小于第三预设条件,第四分词和所述第一分词间存在语义关系、且所述第四分词与所述第二分词的编辑距离小于第三预设条件,将所述第三分词与所述第一分词的编辑距离与所述第四分词与所述第二分词的编辑距离进行大小判断;
若所述第三分词与所述第一分词的编辑距离小于所述第四分词与所述第二分词的编辑距离,将所述第一分词确定为所述待纠错分词;
所述确定所述待纠错分词的纠错结果,包括:
将所述第三分词确定为所述待纠错分词的纠错结果。
由于所述装置200是与以上方法实施例提供的方法对应的装置,所述装置200的各个单元的具体实现,均与以上方法实施例为同一构思,因此,关于所述装置200的各个单元的具体实现,可以参考以上方法实施例的描述部分,此处不再赘述。
通过以上描述可知,利用本申请实施例提供的语句纠错装置,在确定出待纠错语句的依存关系后,可以进一步识别具有依存关系的分词间是否存在语义关系,如果具有目标依存关系的第一分词和第二分词间不存在语义关系,可以确定第一分词和第二分词虽然在依存关系上可能合理,但是语义层面上并不搭配,具有语义不合理的问题,由此可以从第一分词和第二分词中确定出待纠错分词,并根据待纠错分词确定纠错结果,从而实现对用户输入语句在语义层面上的纠错,丰富了纠错层面,更好的满足当前的纠错需求。
图3是根据一示例性实施例示出的一种用于语句纠错的装置300的框图。例如,装置300可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,装置300可以包括以下一个或多个组件:处理组件302,存储器304,电源组件306,多媒体组件308,音频组件310,输入/输出(I/O)的接口312,传感器组件314,以及通信组件316。
处理组件302通常控制装置300的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件302可以包括一个或多个处理器320来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件302可以包括一个或多个模块,便于处理组件302和其他组件之间的交互。例如,处理部件302可以包括多媒体模块,以方便多媒体组件308和处理组件302之间的交互。
存储器304被配置为存储各种类型的数据以支持在设备300的操作。这些数据的示例包括用于在装置300上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件306为装置300的各种组件提供电力。电源组件306可以包括电源管理系统,一个或多个电源,及其他与为装置300生成、管理和分配电力相关联的组件。
多媒体组件308包括在所述装置300和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件308包括一个前置摄像头和/或后置摄像头。当设备300处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件310被配置为输出和/或输入音频信号。例如,音频组件310包括一个麦克风(MIC),当装置300处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中,音频组件310还包括一个扬声器,用于输出音频信号。
I/O接口312为处理组件302和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件314包括一个或多个传感器,用于为装置300提供各个方面的状态评估。例如,传感器组件314可以检测到设备300的打开/关闭状态,组件的相对定位,例如所述组件为装置300的显示器和小键盘,传感器组件314还可以检测装置300或装置300一个组件的位置改变,用户与装置300接触的存在或不存在,装置300方位或加速/减速和装置300的温度变化。传感器组件314可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件314还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件316被配置为便于装置300和其他设备之间有线或无线方式的通信。装置300可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件316还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器304,上述指令可由装置300的处理器320执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图4是本发明实施例中语句纠错设备的结构示意图。该语句纠错设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对语句纠错设备中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在语句纠错设备400上执行存储介质430中的一系列指令操作。
语句纠错设备400还可以包括一个或一个以上电源424,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,一个或一个以上键盘454,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由语句纠错设备的处理器执行时,使得语句纠错设备能够执行一种语句纠错方法,所述方法包括:
确定待纠错语句中各分词间的依存关系;
根据所确定依存关系识别依存关系下分词间的语义关系;
若具有目标依存关系的第一分词和第二分词间不存在语义关系,从所述第一分词和所述第二分词中确定待纠错分词;所述目标依存关系为所确定依存关系中的任意一个;
确定所述待纠错分词的纠错结果。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种语句纠错方法,其特征在于,所述方法包括:
确定待纠错语句中各分词间的依存关系;
根据所确定依存关系识别依存关系下分词间的语义关系;
若具有目标依存关系的第一分词和第二分词间不存在语义关系,从所述第一分词和所述第二分词中确定待纠错分词;所述目标依存关系为所确定依存关系中的任意一个;
确定所述待纠错分词的纠错结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所确定依存关系识别依存关系下分词间的语义关系,包括:
根据所述语义关系库识别所确定依存关系下分词间的语义关系;所述语义关系库是通过分析历史数据中分词间的语义关系构建的。
3.根据权利要求2所述的方法,其特征在于,所述根据所述语义关系库识别所确定依存关系下分词间的语义关系,包括:
根据所述待纠错语句所涉及的领域确定对应所述领域的语义关系库;对应所述领域的语义关系库是通过分析所述领域的历史数据中分词间的语义关系构建的;
根据对应所述领域的语义关系库识别所确定依存关系下分词间的语义关系。
4.根据权利要求1所述的方法,其特征在于,所述从所述第一分词和所述第二分词中确定待纠错分词,包括:
若确定第三分词和所述第二分词间存在语义关系、且与所述第一分词存在语义关系的分词和所述第二分词之间的编辑距离大于或者等于第一预设条件,将所述第一分词确定为所述待纠错分词;
所述确定所述待纠错分词的纠错结果,包括:
将所述第三分词确定为所述待纠错分词的纠错结果。
5.根据权利要求4所述的方法,其特征在于,所述第一分词与所述第三分词之间的编辑距离小于第二预设条件。
6.根据权利要求4或者5所述的方法,其特征在于,所述第三分词是根据所述待纠错语句的语义场景确定。
7.根据权利要求1所述的方法,其特征在于,所述从所述第一分词和所述第二分词中确定待纠错分词,包括:
若确定第三分词和所述第二分词间存在语义关系、且所述第三分词与所述第一分词的编辑距离小于第三预设条件,第四分词和所述第一分词间存在语义关系、且所述第四分词与所述第二分词的编辑距离小于第三预设条件,将所述第三分词与所述第一分词的编辑距离与所述第四分词与所述第二分词的编辑距离进行大小判断;
若所述第三分词与所述第一分词的编辑距离小于所述第四分词与所述第二分词的编辑距离,将所述第一分词确定为所述待纠错分词;
所述确定所述待纠错分词的纠错结果,包括:
将所述第三分词确定为所述待纠错分词的纠错结果。
8.一种语句纠错装置,其特征在于,所述装置包括:
第一确定单元,用于确定待纠错语句中各分词间的依存关系;
识别单元,用于根据所确定依存关系识别依存关系下分词间的语义关系;
第三确定单元,用于若具有目标依存关系的第一分词和第二分词间不存在语义关系,从所述第一分词和所述第二分词中确定待纠错分词;所述目标依存关系为所确定依存关系中的任意一个;
第四确定单元,用于确定所述待纠错分词的纠错结果。
9.一种语句纠错设备,其特征在于,所述设备包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定待纠错语句中各分词间的依存关系;
根据所确定依存关系识别依存关系下分词间的语义关系;
若具有目标依存关系的第一分词和第二分词间不存在语义关系,从所述第一分词和所述第二分词中确定待纠错分词;所述目标依存关系为所确定依存关系中的任意一个;
确定所述待纠错分词的纠错结果。
10.一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至7中一个或多个语句纠错方法。
CN201811544970.2A 2018-12-17 2018-12-17 一种语句纠错方法和装置 Pending CN111324214A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811544970.2A CN111324214A (zh) 2018-12-17 2018-12-17 一种语句纠错方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811544970.2A CN111324214A (zh) 2018-12-17 2018-12-17 一种语句纠错方法和装置

Publications (1)

Publication Number Publication Date
CN111324214A true CN111324214A (zh) 2020-06-23

Family

ID=71170569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811544970.2A Pending CN111324214A (zh) 2018-12-17 2018-12-17 一种语句纠错方法和装置

Country Status (1)

Country Link
CN (1) CN111324214A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611524A (zh) * 2022-02-08 2022-06-10 马上消费金融股份有限公司 文本纠错方法、装置、电子设备及存储介质
WO2022134356A1 (zh) * 2020-12-25 2022-06-30 平安科技(深圳)有限公司 句子智能纠错方法、装置、计算机设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0567138A (ja) * 1991-09-06 1993-03-19 Oki Electric Ind Co Ltd 自然言語解析方式
US5659771A (en) * 1995-05-19 1997-08-19 Mitsubishi Electric Information Technology Center America, Inc. System for spelling correction in which the context of a target word in a sentence is utilized to determine which of several possible words was intended
US5845306A (en) * 1994-06-01 1998-12-01 Mitsubishi Electric Information Technology Center America, Inc. Context based system for accessing dictionary entries
CN105869642A (zh) * 2016-03-25 2016-08-17 海信集团有限公司 一种语音文本的纠错方法及装置
CN106527756A (zh) * 2016-10-26 2017-03-22 长沙军鸽软件有限公司 一种对输入信息进行智能纠错的方法及装置
CN106528845A (zh) * 2016-11-22 2017-03-22 北京百度网讯科技有限公司 基于人工智能的检索纠错方法及装置
CN106815191A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 修正词的确定方法和装置
US20180137101A1 (en) * 2016-11-17 2018-05-17 Goldman Sachs & Co. LLC System and method for coupled detection of syntax and semantics for natural language understanding and generation
WO2018120889A1 (zh) * 2016-12-28 2018-07-05 平安科技(深圳)有限公司 输入语句的纠错方法、装置、电子设备及介质
CN108376129A (zh) * 2018-01-24 2018-08-07 北京奇艺世纪科技有限公司 一种纠错方法及装置
KR20180113849A (ko) * 2017-04-07 2018-10-17 주식회사 카카오 대량 데이터 기반 의미 오류 교정 규칙 생성 및 의미 오류 교정 방법, 이를 구현한 오류 교정 시스템

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0567138A (ja) * 1991-09-06 1993-03-19 Oki Electric Ind Co Ltd 自然言語解析方式
US5845306A (en) * 1994-06-01 1998-12-01 Mitsubishi Electric Information Technology Center America, Inc. Context based system for accessing dictionary entries
US5659771A (en) * 1995-05-19 1997-08-19 Mitsubishi Electric Information Technology Center America, Inc. System for spelling correction in which the context of a target word in a sentence is utilized to determine which of several possible words was intended
CN106815191A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 修正词的确定方法和装置
CN105869642A (zh) * 2016-03-25 2016-08-17 海信集团有限公司 一种语音文本的纠错方法及装置
CN106527756A (zh) * 2016-10-26 2017-03-22 长沙军鸽软件有限公司 一种对输入信息进行智能纠错的方法及装置
US20180137101A1 (en) * 2016-11-17 2018-05-17 Goldman Sachs & Co. LLC System and method for coupled detection of syntax and semantics for natural language understanding and generation
CN106528845A (zh) * 2016-11-22 2017-03-22 北京百度网讯科技有限公司 基于人工智能的检索纠错方法及装置
WO2018120889A1 (zh) * 2016-12-28 2018-07-05 平安科技(深圳)有限公司 输入语句的纠错方法、装置、电子设备及介质
KR20180113849A (ko) * 2017-04-07 2018-10-17 주식회사 카카오 대량 데이터 기반 의미 오류 교정 규칙 생성 및 의미 오류 교정 방법, 이를 구현한 오류 교정 시스템
CN108376129A (zh) * 2018-01-24 2018-08-07 北京奇艺世纪科技有限公司 一种纠错方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BHASHA AGRAWAL 等: "An Automatic Approach to Treebank Error Detection Using a Dependency Parser", 《COMPUTATIONAL LINGUISTICS AND INTELLIGENT TEXT PROCESSING》, vol. 2013, pages 294 *
谢文慧;易荣庆;彭涛;: "基于键盘距离和依存分析的拼写纠错方法", 吉林大学学报(理学版), no. 05, pages 1179 - 1186 *
顾德之: "中文真词错误自动校对方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, vol. 2018, no. 2, pages 138 - 2868 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022134356A1 (zh) * 2020-12-25 2022-06-30 平安科技(深圳)有限公司 句子智能纠错方法、装置、计算机设备及存储介质
CN114611524A (zh) * 2022-02-08 2022-06-10 马上消费金融股份有限公司 文本纠错方法、装置、电子设备及存储介质
CN114611524B (zh) * 2022-02-08 2023-11-17 马上消费金融股份有限公司 文本纠错方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107527619B (zh) 语音控制业务的定位方法及装置
CN111145756B (zh) 一种语音识别方法、装置和用于语音识别的装置
CN108227950B (zh) 一种输入方法和装置
CN107564526B (zh) 处理方法、装置和机器可读介质
CN110069624B (zh) 文本处理方法及装置
CN111831806A (zh) 语义完整性确定方法、装置、电子设备和存储介质
CN111324214A (zh) 一种语句纠错方法和装置
CN113343675A (zh) 一种字幕生成方法、装置和用于生成字幕的装置
CN116166843B (zh) 基于细粒度感知的文本视频跨模态检索方法和装置
CN111813932A (zh) 文本数据的处理方法、分类方法、装置及可读存储介质
CN111079421A (zh) 一种文本信息分词处理的方法、装置、终端及存储介质
CN108108356B (zh) 一种文字翻译方法、装置及设备
US11461561B2 (en) Method and device for information processing, and storage medium
CN110837741B (zh) 一种机器翻译方法、装置及系统
CN112837668B (zh) 一种语音处理方法、装置和用于处理语音的装置
CN110780749B (zh) 一种字符串纠错方法和装置
CN111414766B (zh) 一种翻译方法及装置
CN113343720A (zh) 一种字幕翻译方法、装置和用于字幕翻译的装置
CN109308126B (zh) 一种候选词展示方法和装置
CN108073566B (zh) 分词方法和装置、用于分词的装置
CN111832315B (zh) 语义识别的方法、装置、电子设备和存储介质
CN110716653B (zh) 一种联想源确定方法和装置
CN111414731B (zh) 文本标注方法和装置
CN109271094B (zh) 一种文本编辑的方法、装置及设备
CN111381685B (zh) 一种句联想方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination