CN112232059B - 文本纠错方法、装置、计算机设备及存储介质 - Google Patents
文本纠错方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112232059B CN112232059B CN202011468344.7A CN202011468344A CN112232059B CN 112232059 B CN112232059 B CN 112232059B CN 202011468344 A CN202011468344 A CN 202011468344A CN 112232059 B CN112232059 B CN 112232059B
- Authority
- CN
- China
- Prior art keywords
- entity
- statement
- determining
- corrected
- entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本申请实施例提供一种文本纠错方法、装置、计算机设备及存储介质。该方法包括:获取待纠错语句;在待纠错语句中确定第一实体,在知识库中确定与第一实体相对应的第二实体;基于第二实体的类型和待纠错语句生成候选语句;通过语言模型在候选语句中确定出目标语句;根据目标语句,以及目标语句对应的第二实体,确定待纠错语句对应的正确语句。本申请实施例提供的技术方案,通过利用外部知识提供的信息对文本中出现的知识型错误(待纠错语句中存在字音、字形、缺字等错误但语义依然合理时)进行纠错,一方面减小纠错算法对大规模数据的依赖,一方面提高纠错能力以及纠错成功率。
Description
技术领域
本申请实施例涉及互联网技术领域,特别涉及一种文本纠错方法、装置、计算机设备及存储介质。
背景技术
目前,终端在接收用户输入的语句,以及将语音信号转换成语句的过程中通常会出现错误语句,需要对上述错误语句进行纠错。
在自然语言处理领域,通过大规模预料训练得到语言模型,错误语句被输入至该语言模型后,由语言模型输出正确语句。然而,语言模型通常能纠正形近或音似的错别字、多字和缺字造成的错误语句,也即语言模型能很好纠正文本中导致文本无意义的错误。示例性地,语言模型将“天气转凉,请注意预防感帽”纠错结果为“天气转凉,请注意预防感冒”。
若错误文本具有合理的语义,此时语言模型无法进行纠正,导致文本纠错的成功率较低。
发明内容
本申请实施例提供一种文本纠错方法、装置、计算机设备及存储介质。所述技术方案包括如下几方面。
一方面,本申请实施例一种文本纠错方法,所述方法包括:
获取待纠错语句;
在所述待纠错语句中确定至少一个第一实体,在所述知识库中确定第二实体集合,所述第二实体集合包括与所述第一实体分别对应的第二实体,所述知识库包括多个实体之间的关系信息;
基于所述第二实体的类型和所述待纠错语句生成候选语句;
通过语言模型在所述候选语句中确定出目标语句,所述语言模型是通过由实体的类型组成的样本语句对神经网络进行训练得到的;
根据所述目标语句,以及所述目标语句对应的所述第二实体,确定所述待纠错语句对应的正确语句。
另一方面,本申请实施例提供一种文本纠错装置,所述装置包括:
语句获取模块,用于获取待纠错语句;
第一确定模块,用于在所述待纠错语句中确定至少一个第一实体,在所述知识库中确定第二实体集合,所述第二实体集合包括与所述第一实体分别对应的第二实体,所述知识库包括多个实体之间的关系信息;
语句生成模块,用于基于所述第二实体的类型和所述待纠错语句生成候选语句;
第二确定模块,用于通过语言模型在所述候选语句中确定出目标语句,所述语言模型是通过由实体的类型组成的样本语句对神经网络进行训练得到的;
文本纠错模块,用于根据所述目标语句,以及所述目标语句对应的所述第二实体,确定所述待纠错语句对应的正确语句。
又一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如一方面所述的文本纠错方法。
又一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如一方面所述的文本纠错方法。
又一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本纠错方法。
本申请实施例提供的技术方案可以带来的有益效果至少包括:
通过在知识库中确定出与待纠错语句中的第一实体的相似度较高的第二实体,将上述第二实体替换待纠错语句中的第一实体得到候选语句,采用语言模型对上述候选语句进行逐一验证,最终确定待纠错语句对应的正确语句,由于知识库中存储有实体之间的关联关系,也即通过利用外部知识提供的信息对文本中出现的知识型错误(待纠错语句中存在字音、字形、缺字等错误但语义依然合理时)进行纠错,一方面减小纠错算法对大规模数据的依赖,一方面提高纠错能力以及纠错成功率。
附图说明
图1是本申请一个实施例提供的文本纠错的示意图;
图2是本申请一个实施例提供的文本纠错方法的流程图;
图3是本申请一个实施例提供的训练语言模型的流程图;
图4是本申请一个实施例提供的文本纠错装置的框图;
图5是本申请一个实施例提供的计算机设备的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供的技术方案,通过在知识库中确定出与待纠错语句中的第一实体的相似度较高的第二实体,将上述第二实体替换待纠错语句中的第一实体得到候选语句,采用语言模型对上述候选语句进行逐一验证,最终确定待纠错语句对应的正确语句,由于知识库中存储有实体之间的关联关系,也即通过利用外部知识提供的信息对文本中出现的知识型错误(待纠错语句中存在字音、字形、缺字等错误但语义依然合理时)进行纠错,一方面减小纠错算法对大规模数据的依赖,一方面提高纠错能力以及纠错成功率。
本申请实施例提供的技术方案,各步骤的执行主体为计算机设备。该计算机设备可以是智能手机、平板电脑、个人计算机之类的终端设备,也可以是服务器。服务器可以是一台服务器,也可以是多台服务器组成的服务器集群,还可以是一个云计算服务中心。
图1示出了本申请实施例示出的文本纠错的示意图。
知识库10中存储有各个实体的类型以及各个实体之间的关联关系,对于待纠错语句11,计算机设备将其进行分词,得到待纠错语句11对应的字段集合12,计算机设备基于知识库10以及字段集合12确定第一实体13,以及第一实体13对应的第二实体14,之后计算机设备基于知识库10、第一实体13、第二实体14确定候选语句15,计算机设备通过语言模型16在候选语句15中确定出目标语句17,最后基于知识库10对目标语句17进行关联度打分,最终确定待纠错语句11对应的正确语句18。
图2示出了本申请实施例提供的文本纠错方法的流程图。该方法包括如下步骤。
步骤201,获取待纠错语句。
待纠错语句是指需要纠正错误的语句。可选地,待纠错语句为用户输入的语句,或者对用户输入的语音信号进行文字转换所得到的语句。
在一种可能的实现方式中,终端显示待纠错语句以及该待纠错语句对应的纠错控件,若接收到对应于该纠错控件的触发信号,则获取待纠错语句并执行后续的文本纠错方案。在另一种可能的实现方式中,终端在搜索时未检测到对应于待纠错语句的搜索结果,则获取待纠错语句并执行后续的文本纠错方案。
步骤202,在待纠错语句中确定至少一个第一实体,在知识库中确定第二实体集合。
第二实体集合包括与第一实体相对应的第二实体。
知识库包括多个实体之间的关系信息,上述关系信息包括且不限于拥有关系、从属关系。确定第一实体,以及与第一实体相对应的第二实体将在下文实施例进行讲解。
步骤203,通过第二实体的类型生成候选语句。
第二实体之间的类型用于指示第二实体的目标属性。比如,对于实体“小冤家”,其类型为歌曲。对于用户,其对应的类型可以根据其职业确定,比如程序员、歌手、老师等。候选语句为播放歌手的歌曲。
可选地,计算机设备将第二实体的类型替换待纠错语句中与第二实体对应的第一实体,得到候选语句。
示例性地,待纠错语句为“播放赵方婧的囊肿”,第一实体“赵方婧”对应的第二实体为“赵方婧”,其类型为歌手,第一实体“囊肿”对应的第二实体包括“芒种”、“闹钟”、“囊肿”。对于第二实体“芒种”,其类型为歌曲或节气,计算机设备将歌曲或节气替换待纠错语句中的囊肿,得到“播放歌手的节气”、“播放歌手的歌曲”两个候选语句;对于第二实体“闹钟”,其类型为歌曲或提醒工具,计算机设备将歌曲或提醒工具替换待纠错语句中的囊肿,得到“播放歌手的提醒工具”、“播放歌手的歌曲”两个候选语句;对于第二实体“囊肿”,其类型为疾病,计算机设备将疾病替换待纠错语句中的囊肿,得到“播放歌手的疾病”这一候选语句。
步骤204,通过语言模型在候选语句中确定出目标语句。
语言模型是通过实体的类型组成的样本语句对神经网络进行训练得到的。计算机设备将各个候选语句分别输入语言模型,由语言模型输出候选语句对应的分数,该分数用于指示候选语句为逻辑正确的语句的概率。
在一种可能的实现方式中,计算机设备将分数超过预设阈值的候选语句确定为目标语句。在另一种可能的实现方式中,计算机设备将各个候选语句对应的分数按照由高到低的顺序进行排序,将排序在前n位的候选语句确定为目标语句。在又一种可能的实现方式中,计算机设备将将各个候选语句对应的分数按照由高到低的顺序进行排序,将排在前n位且大于预设阈值的候选语句确定为目标语句。预设阈值,以及n的取值均根据实际需求设定,本申请实施例对此不作限定。
步骤205,根据目标语句,以及目标语句对应的第二实体,确定待纠错语句对应的正确语句。
目标语句可以是一个,也可以是多个。当目标语句存在一个时,将目标语句中的第二实体的类型替换成第二实体,得到待纠错语句对应的正确语句。
当目标语句存在多个时,该文本纠错方法还包括如下步骤:将目标语句中的第二实体的类型替换为第二实体;确定实体关联分数最大的目标语句,根据实体关联分数最大的目标语句,以及实体关联分数最大的目标语句对应的第二实体,确定正确语句。
可选地,计算机设备基于知识库中的各个实体之间的关联关系来确定目标语句对应的实体关联分数,若知识库中存在目标语句中的实体之间的关联关系,则该目标语句的实体关联分数越高;若知识库中不存在目标语句中的实体之间的关联关系,则该目标语句的实体关联分数越低。可选地,若知识库中存在目标语句中的实体之间的关联关系越直接,则该目标语句的实体关联分数越高;反之,则该目标语句中的实体关联分数越低。
综上所述,本申请实施例提供的技术方案,通过在知识库中确定出与待纠错语句中的第一实体的相似度较高的第二实体,将上述第二实体替换待纠错语句中的第一实体得到候选语句,采用语言模型对上述候选语句进行逐一验证,最终确定待纠错语句对应的正确语句,由于知识库中存储有实体之间的关联关系,也即通过利用外部知识提供的信息对文本中出现的知识型错误(待纠错语句中存在字音、字形、缺字等错误但语义依然合理时)进行纠错,一方面减小纠错算法对大规模数据的依赖,一方面提高纠错能力以及纠错成功率。
下面对确定第一实体以及第二实体的过程进行讲解。在基于图1所示实施例提供的可选实施例中,步骤202包括如下子步骤。
步骤202a,将待纠错语句划分为多个字段。
计算机设备按照预设字符长度将待纠错语句划分为多个字段。预设字符长度的取值依次为1到待纠错语句的文本长度。示例性地,对于待纠错语句“播放赵方婧的囊肿”,将其进行划分,得到待纠错语句对应的字段集合为{播,放,赵,方,婧,的,囊,肿,播放,放赵,赵方,方婧,婧的,的囊,囊肿,播放赵,放赵方,赵方婧,方婧的,婧的囊,的囊肿,播放赵方,放赵方婧,赵方婧的,方婧的囊,婧的囊肿,播放赵方婧,放赵方婧的,赵方婧的囊,方婧的囊肿,播放赵方婧的,放赵方婧的囊,赵方婧的囊肿,播放赵方婧的囊,放赵方婧的囊肿,播放赵方婧的囊肿}。
可选地,计算机设备通过基于词典的分词算法,基于统计的分词算法、基于规则的分词算法、基于字标注的分词算法中的至少一种,将待纠错语句划分为多个字段。
步骤202b,根据字段与知识库中的实体之间的相似度,在多个字段中确定出第一实体,在知识库中确定第二实体集合。
第二实体集合包括与第一实体相对应的第二实体。
对于上述多个字段中的每个字段,计算机设备计算其与知识库中的实体之间的相似度。若字段与知识库中的候选实体之间的相似度大于第一阈值,则将字段确定为第一实体,将知识库中的候选实体确定为第二实体。
第一阈值根据实际需求设定,本申请实施例对此不作限定。示例性地,对于字段“囊肿”,其与知识库中的实体“芒种”、“闹钟”、“囊肿”之间的相似度大于第一阈值,则将字段“囊肿”确定为第一实体、将知识库中的实体“芒种”、“闹钟”、“囊肿”均确定为第二实体。
可选地,计算机设备通过字段的字音、字形与知识库中的实体的字音、字形,计算字段和知识库中的实体之间的相似度。在本申请实施例中,从字音、字形两方面来计算字段与知识库中的实体之间的相似度,能有效筛选出因书写、拼读错误导致的文本错误。在一种可能的实现方式中,第一阈值包括第一字音阈值和第一字形阈值,若字段的字音与知识库中的实体的字音的相似度大于第一字音阈值,和/或字段的字形与知识库中的实体的字形的相似度大于第一字形阈值,则确定字段与知识库中的候选实体之间的相似度大于第一阈值。
可选地,在步骤202b之后,该文本纠错方法还包括如下步骤:在知识库中确定与第二实体中的目标实体存在直接关联关系的候选实体,若候选实体,与第二实体中除目标实体之外的其它实体之间的相似度大于第二阈值,则将候选实体添加至第二实体集合。
目标实体是第二实体中的任一实体。若两个实体之间存在直接关联关系,则上述两个实体通过一个动词或一个副词连接后符合逻辑关系,也称上述两个实体具有一跳关系。上述一个动词可以是“是”,一个副词可以是“的”。
计算机设备检测知识库中是否存在与目标实体存在直接关联关系的候选实体,若存在候选实体,则检测该候选实体与第二实体中除目标实体之外的其它实体之间的相似度是否大于第二阈值,若大于,则将该候选实体也被确定为第二实体。其中,第二阈值小于第一阈值。通过上述方式,在知识库中确定出由于缺字、漏字而导致无法被筛选出的第二实体,提高文本纠错的成功率。
例如,与第二实体“赵方婧”存在歌手作品关系的候选实体包括“寒露”、“霜降”,存在国籍关系的是“中国”。
图3示出了本申请一个实施例提供的训练语言模型的流程图。训练语言模型包括如下步骤。
步骤301,获取训练语句。
训练语句的数量根据语言模型的精度要求确定。语言模型的精度要求越高,则训练语句的数量越多。语言模型的精度要求越低,则训练语句的数量越少。
训练语句被标注有第一分数,第一分数用于指示训练语句逻辑正确的概率。第一分数越高,则训练语句逻辑正确的概率越大;第一分数越低,训练语句逻辑正确的概率越小。
训练语句中的实体通过实体类型来替代。示例性地,对于训练语句“播放赵方婧的芒种”,将其实体通过实体类型来替代,得到“播放歌手的歌曲”。由于实体类型的数量明显少于实体数量,采用包含实体类型的语句进行模型训练,可以加快模型的收敛速度。
步骤302,通过训练语句对神经网络进行训练,输出第二分数。
神经网络的各项参数随机设定。计算机设备将训练语句输入神经网络,由该神经网络输出第二分数。
步骤303,基于第一分数和第二分数确定损失函数。
计算机设备将第一分数和第二分数进行比对,得到损失函数。
步骤304,根据损失函数调节神经网络的参数,得到语言模型。
计算机设备根据损失函数调节神经网络的各项参数,并重复步骤302-304,直至损失函数符合预设条件,之后得到语言模型。可选地,预设条件是指损失函数小于预设阈值,预设阈值根据语言模型的精度要求确定。语言模型的精度要求越高,则预设阈值越小。语言模型的精度要求越低,则预设阈值越大。
综上所述,本申请实施例提供的技术方案,通过包含实体类型的训练语句来训练语言模型,由于实体类型的数量较少,因此能加快模型的收敛速度,提高模型的训练速率。
以下为本申请装置实施例,对于装置实施例中未详细阐述的部分,可以参考上述方法实施例中公开的技术细节。
请参考图4,其示出了本申请一个示例性实施例提供的文本纠错装置的框图。该装置可以通过软件、硬件或者两者的组合实现成为终端的全部或一部分。该装置包括以下模块。
语句获取模块401,用于获取待纠错语句。
第一确定模块402,用于在所述待纠错语句中确定至少一个第一实体,在所述知识库中确定第二实体集合,所述第二实体集合包括与所述第一实体分别对应的第二实体,所述知识库包括多个实体之间的关系信息。
语句生成模块403,用于基于所述第二实体的类型和所述待纠错语句生成候选语句。
第二确定模块404,用于通过语言模型在所述候选语句中确定出目标语句,所述语言模型是通过由实体的类型组成的样本语句对神经网络进行训练得到的。
文本纠错模块405,用于根据所述目标语句,以及所述目标语句对应的所述第二实体,确定所述待纠错语句对应的正确语句。
综上所述,本申请实施例提供的技术方案,通过在知识库中确定出与待纠错语句中的第一实体的相似度较高的第二实体,将上述第二实体替换待纠错语句中的第一实体得到候选语句,采用语言模型对上述候选语句进行逐一验证,最终确定待纠错语句对应的正确语句,由于知识库中存储有实体之间的关联关系,也即通过利用外部知识提供的信息对文本中出现的知识型错误(待纠错语句中存在字音、字形、缺字等错误但语义依然合理时)进行纠错,一方面减小纠错算法对大规模数据的依赖,一方面提高纠错能力以及纠错成功率。
在基于图4所示实施例提供的可选实施例中,所述第一确定模块402,用于:
将所述待纠错语句划分为多个字段;
根据所述字段与所述知识库中的实体之间的相似度,在所述多个字段中确定出所述第一实体,在所述知识库中确定与所述第一实体相对应的第二实体。
可选地,所述第一确定模块402,用于:
对于每一所述字段,计算所述字段与所述知识库中的实体之间的相似度;
若所述字段与所述知识库中的候选实体之间的相似度大于第一阈值,则将所述字段确定为所述第一实体,将所述知识库中的候选实体确定为所述第二实体。
可选地,所述第一确定模块402,用于:
通过所述字段的字音、字形与所述知识库中的实体的字音、字形,计算所述字段和所述知识库中的实体之间的相似度。
可选地,所述第一确定模块402,用于:
在所述知识库中确定与所述第二实体中的目标实体存在直接关联关系的候选实体;
若所述候选实体,与所述第二实体中除所述目标实体之外的其它实体之间的相似度大于第二阈值,则将所述候选实体添加至所述第二实体集合。
在基于图4所示实施例提供的可选实施例中,所述语句生成模块403,用于:
通过所述第二实体的类型替换所述待纠错语句中与所述第二实体对应的第一实体,得到所述候选语句。
在基于图4所示实施例提供的可选实施例中,所述文本纠错模块405,用于:
将所述目标语句中的所述第二实体的类型替换为所述第二实体;
确定实体关联分数最大的所述目标语句;
根据所述实体关联分数最大的所述目标语句,以及所述实体关联分数最大的所述目标语句对应的所述第二实体,确定所述正确语句。
在基于图4所示实施例提供的可选实施例中,所述语言模型的训练过程如下:
获取训练语句,所述训练语句被标注有第一分数,所述训练语句中的实体通过实体类型来替代;
通过所述训练语句对神经网络进行训练,输出第二分数;
将所述第一分数与所述第二分数进行比对,得到误差;
根据所述误差调节所述神经网络的参数,得到所述语言模型。
需要说明的是,上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图5示出了本申请一个示例性实施例提供的计算机设备500的结构框图。该计算机设备500可以是:智能手机、平板电脑、MP3播放器、MP4播放器、笔记本电脑或台式电脑。该计算机设备500还可以是服务器。
通常,计算机设备500包括有:处理器501和存储器502。
处理器501可以包括一个或多个处理核心,比如4核心处理器、5核心处理器等。处理器501可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(CentralProcessing Unit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器501可以在集成有图像处理器(Graphics Processing Unit,GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。
存储器502可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器502中的非暂态的计算机可读存储介质用于存储计算机程序,该计算机程序用于被处理器501所执行以实现本申请中方法实施例提供的文本纠错方法。
在一些实施例中,计算机设备500还可选包括有:外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地,外围设备包括:射频电路504、触摸显示屏505、摄像头组件506、音频电路507、定位组件505和电源509中的至少一种。
外围设备接口503可被用于将输入/输出(Input /Output,I/O)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中,处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上;在一些其他实施例中,处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路504用于接收和发射射频(Radio Frequency,RF)信号,也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路504包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它计算机设备进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或无线保真 (Wireless Fidelity,WiFi)网络。在一些实施例中,射频电路504还可以包括近距离无线通信(Near Field Communication,NFC)有关的电路,本申请对此不加以限定。
显示屏505用于显示用户界面(User Interface,UI)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时,显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时,显示屏505还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏505可以为一个,设置计算机设备500的前面板;在另一些实施例中,显示屏505可以为至少两个,分别设置在计算机设备500的不同表面或呈折叠设计;在再一些实施例中,显示屏505可以是柔性显示屏,设置在计算机设备500的弯曲表面上或折叠面上。甚至,显示屏505还可以设置成非矩形的不规则图形,也即异形屏。显示屏505可以采用液晶显示屏 (Liquid Crystal Display,LCD)、有机发光二极管 (OrganicLight-Emitting Diode, OLED)等材质制备。
摄像头组件506用于采集图像或视频。可选地,摄像头组件506包括前置摄像头和后置摄像头。通常,前置摄像头设置在计算机设备的前面板,后置摄像头设置在计算机设备的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及虚拟现实(Virtual Reality,VR)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器501进行处理,或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在计算机设备500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路507还可以包括耳机插孔。
定位组件505用于定位计算机设备500的当前地理位置,以实现导航或基于位置的服务(Location Based Service,LBS)。定位组件505可以是基于美国的全球定位系统(Global Positioning System,GPS)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源509用于为计算机设备500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,计算机设备500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于:加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。
本领域技术人员可以理解,图5中示出的结构并不构成对计算机设备500的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由计算机设备的处理器加载并执行以实现上述方法实施例中的文本纠错方法。
可选地,上述计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面或者一方面的各种可选实现方式中提供的文本纠错方法。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (11)
1.一种文本纠错方法,其特征在于,所述方法包括:
获取待纠错语句;
在所述待纠错语句中确定至少一个第一实体,在知识库中确定第二实体集合,所述第二实体集合包括与所述第一实体分别对应的第二实体,所述知识库包括多个实体之间的关系信息;
基于所述第二实体的类型和所述待纠错语句生成候选语句;
通过语言模型在所述候选语句中确定出目标语句,所述语言模型是通过由实体的类型组成的样本语句对神经网络进行训练得到的;
根据所述目标语句,以及所述目标语句对应的所述第二实体,确定所述待纠错语句对应的正确语句。
2.根据权利要求1所述的方法,其特征在于,所述在所述待纠错语句中确定第一实体,在所述知识库中确定第二实体集合,包括:
将所述待纠错语句划分为多个字段;
根据所述字段与所述知识库中的实体之间的相似度,在所述多个字段中确定出所述第一实体,在所述知识库中确定与所述第一实体相对应的第二实体,将与所述第一实体相对应的第二实体添加至所述第二实体集合。
3.根据权利要求2所述的方法,其特征在于,所述根据所述字段与所述知识库中的实体之间的相似度,在所述多个字段中确定出所述第一实体,在所述知识库中确定与所述第一实体相对应的第二实体,包括:
对于每一所述字段,计算所述字段与所述知识库中的实体之间的相似度;
若所述字段与所述知识库中的候选实体之间的相似度大于第一阈值,则将所述字段确定为所述第一实体,将所述知识库中的候选实体确定为所述第二实体。
4.根据权利要求3所述的方法,其特征在于,所述对于每一所述字段,计算所述字段与所述知识库中的实体之间的相似度,包括:
通过所述字段的字音、字形与所述知识库中的实体的字音、字形,计算所述字段和所述知识库中的实体之间的相似度。
5.根据权利要求2所述的方法,其特征在于,所述根据所述字段与所述知识库中的实体之间的相似度,在所述多个字段中确定出所述第一实体,在所述知识库中确定与所述第一实体相对应的第二实体之后,包括:
在所述知识库中确定与多个所述第二实体中的目标实体存在直接关联关系的候选实体;
若所述候选实体,与所述第二实体中除所述目标实体之外的其它实体之间的相似度大于第二阈值,则将所述候选实体添加至所述第二实体集合。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述基于所述第二实体的类型和所述待纠错语句生成候选语句,包括:
通过所述第二实体的类型替换所述待纠错语句中与所述第二实体对应的第一实体,得到所述候选语句。
7.根据权利要求1至5任一项所述的方法,其特征在于,当所述目标语句存在多个时,所述根据所述目标语句,以及所述目标语句对应的所述第二实体,确定所述待纠错语句对应的正确语句,包括:
将所述目标语句中的所述第二实体的类型替换为所述第二实体;
确定实体关联分数最大的所述目标语句;
根据所述实体关联分数最大的所述目标语句,以及所述实体关联分数最大的所述目标语句对应的所述第二实体,确定所述正确语句。
8.根据权利要求1至5任一项所述的方法,其特征在于,所述语言模型的训练过程如下:
获取训练语句,所述训练语句被标注有第一分数,所述训练语句中的实体通过实体类型来替代;
通过所述训练语句对所述神经网络进行训练,输出第二分数;
基于所述第一分数和所述第二分数确定损失函数;
根据所述损失函数调节所述神经网络的参数,得到所述语言模型。
9.一种文本纠错装置,其特征在于,所述装置包括:
语句获取模块,用于获取待纠错语句;
第一确定模块,用于在所述待纠错语句中确定至少一个第一实体,在知识库中确定第二实体集合,所述第二实体集合包括与所述第一实体分别对应的第二实体,所述知识库包括多个实体之间的关系信息;
语句生成模块,用于基于所述第二实体的类型和所述待纠错语句生成候选语句;
第二确定模块,用于通过语言模型在所述候选语句中确定出目标语句,所述语言模型是通过由实体的类型组成的样本语句对神经网络进行训练得到的;
文本纠错模块,用于根据所述目标语句,以及所述目标语句对应的所述第二实体,确定所述待纠错语句对应的正确语句。
10.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行如权利要求1至8任一项所述的文本纠错方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至8任一项所述的文本纠错方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011468344.7A CN112232059B (zh) | 2020-12-14 | 2020-12-14 | 文本纠错方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011468344.7A CN112232059B (zh) | 2020-12-14 | 2020-12-14 | 文本纠错方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112232059A CN112232059A (zh) | 2021-01-15 |
CN112232059B true CN112232059B (zh) | 2021-03-26 |
Family
ID=74124078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011468344.7A Active CN112232059B (zh) | 2020-12-14 | 2020-12-14 | 文本纠错方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112232059B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113268977B (zh) * | 2021-07-19 | 2021-10-15 | 中国平安人寿保险股份有限公司 | 基于语言模型的文本纠错方法、装置、终端设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992765A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 文本纠错方法及装置、存储介质和电子设备 |
CN112016304A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN112016310A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、系统、设备及可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280061B (zh) * | 2018-01-17 | 2021-10-26 | 北京百度网讯科技有限公司 | 基于歧义实体词的文本处理方法和装置 |
US10930275B2 (en) * | 2018-12-18 | 2021-02-23 | Microsoft Technology Licensing, Llc | Natural language input disambiguation for spatialized regions |
CN111581375B (zh) * | 2020-04-01 | 2023-05-30 | 车智互联(北京)科技有限公司 | 对话意图类型识别方法、多轮对话方法、装置及计算设备 |
CN111554295B (zh) * | 2020-04-24 | 2021-06-22 | 科大讯飞(苏州)科技有限公司 | 文本纠错方法、相关设备及可读存储介质 |
CN112035635A (zh) * | 2020-08-28 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医疗领域意图识别方法、装置、设备及存储介质 |
-
2020
- 2020-12-14 CN CN202011468344.7A patent/CN112232059B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992765A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 文本纠错方法及装置、存储介质和电子设备 |
CN112016304A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN112016310A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、系统、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112232059A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829751B (zh) | 生成歌词、显示歌词的方法、装置、电子设备及存储介质 | |
CN110750992B (zh) | 命名实体识别方法、装置、电子设备及介质 | |
US11935517B2 (en) | Speech decoding method and apparatus, computer device, and storage medium | |
CN110162604B (zh) | 语句生成方法、装置、设备及存储介质 | |
WO2020211607A1 (zh) | 生成视频的方法、装置、电子设备及介质 | |
CN108922531B (zh) | 槽位识别方法、装置、电子设备及存储介质 | |
CN111209377B (zh) | 基于深度学习的文本处理方法、装置、设备及介质 | |
CN111324699A (zh) | 语义匹配的方法、装置、电子设备及存储介质 | |
CN110555102A (zh) | 媒体标题识别方法、装置及存储介质 | |
CN114692639A (zh) | 一种文本纠错方法和电子设备 | |
WO2019223393A1 (zh) | 生成歌词、显示歌词的方法、装置、电子设备及存储介质 | |
CN112232059B (zh) | 文本纠错方法、装置、计算机设备及存储介质 | |
CN112289302B (zh) | 音频数据的合成方法、装置、计算机设备及可读存储介质 | |
CN110837557B (zh) | 摘要生成方法、装置、设备及介质 | |
CN110377914B (zh) | 字符识别方法、装置及存储介质 | |
CN111428079A (zh) | 文本内容处理方法、装置、计算机设备及存储介质 | |
CN113836946B (zh) | 训练评分模型的方法、装置、终端及存储介质 | |
CN114925667A (zh) | 内容分类方法、装置、设备及计算机可读存储介质 | |
CN111145723B (zh) | 转换音频的方法、装置、设备以及存储介质 | |
CN114328815A (zh) | 文本映射模型的处理方法、装置、计算机设备及存储介质 | |
KR102488359B1 (ko) | 어휘 데이터베이스를 처리하는 방법 및 장치 | |
CN111475619A (zh) | 文本信息修正方法、装置、电子设备及存储介质 | |
KR102512279B1 (ko) | 가사 렌더링 방법 및 장치 | |
CN111597823A (zh) | 中心词提取方法、装置、设备及存储介质 | |
CN111737423B (zh) | 领域识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |