CN111767714A - 一种文本通顺度确定方法、装置、设备及介质 - Google Patents
一种文本通顺度确定方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN111767714A CN111767714A CN202010600771.XA CN202010600771A CN111767714A CN 111767714 A CN111767714 A CN 111767714A CN 202010600771 A CN202010600771 A CN 202010600771A CN 111767714 A CN111767714 A CN 111767714A
- Authority
- CN
- China
- Prior art keywords
- text
- smoothness
- text segment
- segment
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种文本通顺度确定方法、装置、设备及介质,涉及人工智能中的自然语言处理技术,且可应用于区块链网络,其中,方法包括:对目标文本进行划分,得到至少一个文本片段,对至少一个文本片段中的每个文本片段进行划分,得到每个文本片段对应的多个分词;提取至少一个文本片段中的每个文本片段的文本片段特征信息,以及每个文本片段对应的多个分词的分词特征信息;根据每个文本片段的文本片段特征信息确定每个文本片段的第一通顺度;根据每个文本片段对应的多个分词的分词特征信息,确定每个文本片段的第二通顺度;根据第一通顺度和第二通顺度确定目标文本的文本通顺度。采用本申请实施例,可以提高判断文本通顺度的准确性。
Description
技术领域
本申请涉及人工智能中的自然语言处理技术,尤其涉及一种文本通顺度确定方法、装置、设备及介质。
背景技术
文本通顺度是指判断一句话或者一段话是否符合人类说话方式,在语法语义上是否是可读可理解的。
目前的文本通顺度判断方法主要是通过语言学制定出人类语言范式,例如陈述句是由主谓宾构成的、定语修饰语需要加在名词前等,因此通过判断文本中的每个句子是否符合人类语言范式,从而确定文本的通顺度。由于语言的字词组合具有非常大的灵活性,某些句子不符合人类语言范式也是通顺的,因此目前的文本通顺度判断方法通过判断句子是否符合人类语言范式来判断句子对应的文本通顺度的方法会导致判断的文本通顺度准确性不高。
发明内容
本申请实施例提供一种文本通顺度确定方法、装置、设备及介质,可以从多个维度判断文本通顺度,从而提高判断文本通顺度的准确性。
本申请实施例一方面提供一种文本通顺度确定方法,包括:
对目标文本进行划分,得到至少一个文本片段,对该至少一个文本片段中的每个文本片段进行划分,得到该每个文本片段对应的多个分词;
提取该至少一个文本片段中的每个文本片段的文本片段特征信息,以及该每个文本片段对应的多个分词的分词特征信息;
根据该每个文本片段的文本片段特征信息确定该每个文本片段的通顺度,作为第一通顺度;
根据该每个文本片段对应的多个分词的分词特征信息,确定该每个文本片段的通顺度,作为第二通顺度;
根据该第一通顺度和该第二通顺度确定该目标文本的文本通顺度。
可选的,该对目标文本进行划分,得到至少一个文本片段,对该至少一个文本片段中的每个文本片段进行划分,得到该每个文本片段对应的多个分词,包括:根据预设片段划分规则对该目标文本进行划分,得到该至少一个文本片段,该预设片段划分规则包括符号划分、语义划分、长度划分中的至少一种;根据预设分词划分规则对该至少一个文本片段中的每个文本片段进行划分,得到该每个文本片段对应的多个分词,该预设分词划分规则包括语义划分。
可选的,该根据该每个文本片段的文本片段特征信息确定该每个文本片段的通顺度,作为第一通顺度,包括:基于第一模型对该每个文本片段的文本片段特征信息进行处理,得到该每个文本片段的文本片段特征信息与该第一模型中的多个候选文本片段的文本片段特征信息之间的匹配概率,作为第一匹配概率;从该第一匹配概率中确定最大的第一匹配概率,作为第一目标匹配概率;将该第一目标匹配概率确定为该每个文本片段的通顺度,作为该第一通顺度。
可选的,该根据该每个文本片段对应的多个分词的分词特征信息,确定该每个文本片段的通顺度,作为第二通顺度,包括:基于第二模型对该每个文本片段对应的多个分词中的每个分词的分词特征信息进行处理,得到该每个文本片段对应的多个分词中的每个分词的分词特征信息与该第二模型中的多个候选分词的分词特征信息之间的匹配概率,作为第二匹配概率;从该第二匹配概率中确定最大的第二匹配概率,作为第二目标匹配概率;将该第二目标匹配概率确定为该每个分词的分词特征信息对应的目标分词概率,根据该目标分词概率得到该每个分词的通顺度;根据该每个分词的通顺度,确定该每个文本片段的通顺度,作为该第二通顺度。
可选的,该方法还包括:根据该每个文本片段的文本片段特征信息确定该每个文本片段对应的目标应用场景;根据该每个文本片段的文本片段特征信息和该目标应用场景,确定该每个文本片段的通顺度,作为第三通顺度;该根据该第一通顺度和该第二通顺度确定该目标文本的文本通顺度,包括:根据该第一通顺度、该第二通顺度以及该第三通顺度,确定该目标文本的文本通顺度。
可选的,该根据该每个文本片段的文本片段特征信息和该目标应用场景,确定该每个文本片段的通顺度,作为第三通顺度,包括:获取与该目标应用场景匹配的第三模型;基于该第三模型对该每个文本片段的文本片段特征信息进行处理,得到该每个文本片段的文本片段特征信息对应的场景片段集合,该第三模型中包括该场景片段集合和场景文本库,该场景片段集合是根据该场景文本库确定的;分别统计该场景片段集合中每个候选文本片段的文本片段特征信息在该场景文本库中出现的次数,作为第一出现次数,获取该每个文本片段的文本片段特征信息在该场景文本库中的第二出现次数;获取该第一出现次数之间的次数总和,计算该第二出现次数与该次数总和之间的比值;根据该比值确定该每个文本片段的通顺度,作为该第三通顺度。
可选的,该根据该第一通顺度、该第二通顺度以及该第三通顺度,确定该目标文本的文本通顺度,包括:对该第一通顺度、该第二通顺度以及该第三通顺度进行归一化处理,得到归一化后的第一通顺度、归一化后的第二通顺度以及归一化后的第三通顺度;计算该归一化后的第一通顺度、该归一化后的第二通顺度以及该归一化后的第三通顺度的平均值,得到该每个文本片段的第四通顺度;根据该每个文本片段的第四通顺度确定该目标文本的文本通顺度。
本申请实施例一方面提供一种文本通顺度确定装置,包括:
文本划分模块,用于对目标文本进行划分,得到至少一个文本片段,对该至少一个文本片段中的每个文本片段进行划分,得到该每个文本片段对应的多个分词;
特征信息提取模块,用于提取该至少一个文本片段中的每个文本片段的文本片段特征信息,以及该每个文本片段对应的多个分词的分词特征信息;
第一确定模块,用于根据该每个文本片段的文本片段特征信息确定该每个文本片段的通顺度,作为第一通顺度;
第二确定模块,用于根据该每个文本片段对应的多个分词的分词特征信息,确定该每个文本片段的通顺度,作为第二通顺度;
第三确定模块,用于根据该第一通顺度和该第二通顺度确定该目标文本的文本通顺度。
可选的,该文本划分模块,具体用于:根据预设片段划分规则对该目标文本进行划分,得到该至少一个文本片段,该预设片段划分规则包括符号划分、语义划分、长度划分中的至少一种;根据预设分词划分规则对该至少一个文本片段中的每个文本片段进行划分,得到该每个文本片段对应的多个分词,该预设分词划分规则包括语义划分。
可选的,该第一确定模块,具体用于基于第一模型对该每个文本片段的文本片段特征信息进行处理,得到该每个文本片段的文本片段特征信息与该第一模型中的多个候选文本片段的文本片段特征信息之间的匹配概率,作为第一匹配概率;从该第一匹配概率中确定最大的第一匹配概率,作为第一目标匹配概率;将该第一目标匹配概率确定为该每个文本片段的通顺度,作为该第一通顺度。
可选的,该第二确定模块,具体用于基于第二模型对该每个文本片段对应的多个分词中的每个分词的分词特征信息进行处理,得到该每个文本片段对应的多个分词中的每个分词的分词特征信息与该第二模型中的多个候选分词的分词特征信息之间的匹配概率,作为第二匹配概率;从该第二匹配概率中确定最大的第二匹配概率,作为第二目标匹配概率;将该第二目标匹配概率确定为该每个分词的通顺度;根据该每个分词的通顺度,确定该每个文本片段的通顺度,作为该第二通顺度。
可选的,该装置还包括:第四确定模块,用于:根据该每个文本片段的文本片段特征信息确定该每个文本片段对应的目标应用场景;根据该每个文本片段的文本片段特征信息和该目标应用场景,确定该每个文本片段的通顺度,作为第三通顺度;该第三确定模块,具体用于:根据该第一通顺度、该第二通顺度以及该第三通顺度,确定该目标文本的文本通顺度。
可选的,该第四确定模块,具体用于:获取与该目标应用场景匹配的第三模型;基于该第三模型对该每个文本片段的文本片段特征信息进行处理,得到该每个文本片段的文本片段特征信息对应的场景片段集合,该第三模型中包括该场景片段集合和场景文本库,该场景片段集合是根据该场景文本库确定的;分别统计该场景片段集合中每个候选文本片段的文本片段特征信息在该场景文本库中出现的次数,作为第一出现次数,获取该每个文本片段的文本片段特征信息在该场景文本库中的第二出现次数;获取该第一出现次数之间的次数总和,计算该第二出现次数与该次数总和之间的比值;根据该比值确定该每个文本片段的通顺度,作为该第三通顺度。
可选的,该第三确定模块,具体用于:对该第一通顺度、该第二通顺度以及该第三通顺度进行归一化处理,得到归一化后的第一通顺度、归一化后的第二通顺度以及归一化后的第三通顺度;计算该归一化后的第一通顺度、该归一化后的第二通顺度以及该归一化后的第三通顺度的平均值,得到该每个文本片段的第四通顺度;根据该每个文本片段的第四通顺度确定该目标文本的文本通顺度。
本申请一方面提供了一种计算机设备,包括:处理器、存储器、网络接口;
上述处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以执行本申请实施例中上述一方面中的方法。
本申请实施例一方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时使该处理器执行上述第一方面的一种文本通顺度确定方法。
本申请实施例中,通过获取目标文本中的每个文本片段的通顺度,以及获取目标文本中的每个分词的通顺度,并基于目标文本中的每个文本片段的通顺度和目标文本中的每个分词的通顺度确定目标文本的通顺度,即从不同维度对文本的通顺度进行判断,因此可以提高判断文本通顺度的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本通顺度确定方法的流程示意图;
图2是本申请实施例提供的一种文本通顺度确定方法的流程示意图;
图3是本申请实施例提供的一种文本通顺度确定装置的组成结构示意图;
图4是本申请实施例提供的一种计算机设备的组成结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请涉及人工智能中的自然语言处理技术,利用自然语言处理技术对文本中的每个文本片段进行通顺度判断,以及对文本中的每个分词进行通顺度判断,即从多个维度对文本的通顺度进行判断,因此可以提高判断文本通顺度的准确性;本申请可适用于智慧政务、智慧教育等领域,有利于推动智慧城市的建设。
本申请的技术方案适用于对文本进行识别,从而确定文本通顺度的场景中,例如本申请的技术方案可以适用于机器翻译、自动生成文本摘要、以及文书自动评审等场景中。通过对需要进行通顺度判断的目标文本进行划分,得到至少一个文本片段,并对至少一个文本片段中的每个文本片段进行划分,得到每个文本片段对应的多个分词;提取至少一个文本片段中的每个文本片段的文本片段特征信息,以及每个文本片段对应的多个分词的分词特征信息;根据每个文本片段的文本片段特征信息确定每个文本片段的通顺度,作为第一通顺度;根据每个文本片段对应的多个分词的分词特征信息,确定每个文本片段的通顺度,作为第二通顺度;根据第一通顺度和第二通顺度确定目标文本的文本通顺度。由于本申请实施例中不仅对文本中的每个文本片段进行通顺度判断,还对文本中的每个分词进行通顺度判断,即从多个维度对文本的通顺度进行判断,因此可以提高判断文本通顺度的准确性。
请参见图1,图1是本申请实施例提供的一种文本通顺度确定方法的流程示意图,本申请实施例可以通过计算机设备来执行,如图1所示,该方法包括:
S101,对目标文本进行划分,得到至少一个文本片段,对至少一个文本片段中的每个文本片段进行划分,得到每个文本片段对应的多个分词。
这里,目标文本为需要进行通顺度判断的文本,目标文本中可以包含一个或者多个文本片段。文本片段例如可以为句子,例如为特定标点符号之前的多个文字组成的句子,或者两个特定标点符号之间的多个文字组成的句子。分词例如可以为文本片段中的词语、成语等等。
具体实现中,可以根据预设片段划分规则对目标文本进行划分,得到至少一个文本片段。其中,预设片段划分规则包括符号划分、语义划分、长度划分中的至少一种。
这里,符号划分即根据标点符号对目标文本进行划分,例如根据句号、问号、感叹号、省略号、逗号、顿号或者其他标点符号对目标文本进行划分。语义划分即根据文本含义对目标文本进行划分,例如目标文本的前一部分文本与后一部分文本的文本含义不同时,则根据文本含义对目标文本进行划分。例如前一部分的文本含义为天气好,后一部分的文本含义为郊游,则将目标文本划分为两个文本片段。长度划分即根据目标文本中文字的数量对目标文本进行划分。
例如,目标文本为“今天天气不错!我们打算去郊游,你要和我们一起吗?希望一会儿不要下雨。”根据符号划分该目标文本后,例如得到的文本片段分别包括“今天天气不错”、“我们打算去郊游你要和我们一起吗”、“希望一会儿不要下雨”。根据语义划分该目标文本后,例如得到的文本片段分别包括“今天天气不错”、“我们打算去郊游”、“你要和我们一起吗”、“希望一会儿不要下雨”。根据长度划分该目标文本后,例如得到的文本片段分别包括“今天天气不错”、“我们打算去郊游”、“你要和我们一起吗”、“希望一会儿不要下雨”。可以理解的是,根据各种预设片段划分规则划分后得到的文本片段的数量可以相等。
可以根据预设分词划分规则对至少一个文本片段中的每个文本片段进行划分,得到每个文本片段对应的多个分词。其中,预设分词划分规则包括语义划分。这里,语义划分即根据文本片段的含义对文本片段进行划分,得到每个文本片段对应的多个分词。例如文本片段为“我们打算去郊游”,划分得到的分词可以包括“我们”、“打算”、“去”、“郊游”。例如文本片段为“今天是一个艳阳高照的日子”,划分得到的分词可以包括“今天”、“是”“一个”、“艳阳高照”、“的”、“日子”。可以理解的是,对于一个目标文本,可以划分为一个或者多个文本片段,对于一个文本片段,可以划分为一个或多个分词。
S102,提取至少一个文本片段中的每个文本片段的文本片段特征信息,以及每个文本片段对应的多个分词的分词特征信息。
这里,文本片段的文本片段特征信息可以包括文本片段中表示该文本片段的语义的关键词以及文本片段中各个文本片段的位置等信息。例如文本片段为“我们去郊游吧”,则该文本片段的语义包括“我们”、“郊游”,则该文本片段的文本片段特征信息包括“我们”、“郊游”,等等。分词的分词特征信息包括分词中表示该分词的词义的关键词或者关键字以及各个分词在文本片段中的位置等信息。例如分词为“艳阳高照”,则分词的分词特征信息包括“艳阳高照”、“艳阳”、“高照”、“高”,等等。
S103,根据每个文本片段的文本片段特征信息确定每个文本片段的通顺度,作为第一通顺度。
本申请实施例中,可以通过以下过程确定每个文本片段的第一通顺度:
一、基于第一模型对每个文本片段的文本片段特征信息进行处理,得到每个文本片段的文本片段特征信息与第一模型中的多个候选文本片段的文本片段特征信息之间的匹配概率,作为第一匹配概率。
二、从第一匹配概率中确定最大的第一匹配概率,作为第一目标匹配概率。
三、将第一目标匹配概率确定为每个文本片段的通顺度,作为第一通顺度。
本申请实施例中,计算每个文本片段的文本片段特征信息与第一模型中的多个候选文本片段特征信息之间的匹配概率,即计算每个文本片段的文本片段特征信息与第一模型中的多个候选文本片段特征信息之间的特征相似度,相似度的计算方法还包括皮尔逊相关系数法、Cosine相似度法等,此处不做限定。也就是说,将每个文本片段的文本片段特征信息输入到第一模型中,得到该每个文本片段的文本片段特征信息为第一模型中多个候选文本片段的文本片段特征信息中每个候选文本片段的文本片段特征信息的可能性。
具体实现中,第一模型例如可以为双向编码器模型(Bidirectional EncoderRepresentations from Transformers,Bert),可选的,第一模型中可以包含多种语言,例如中文、英文、日文、韩文,等等。具体实现中,可以根据文本片段的语言类型确定第一模型的语言类型。第一模型中包含多个候选文本片段的文本片段特征信息。
举例来对确定第一通顺度的过程进行说明,例如第一模型中包括3个候选文本片段特征信息分别为候选文本片段特征信息a1~a3,基于第一模型对文本片段A的文本片段特征信息进行处理,得到文本片段A的文本片段特征信息与第一模型中的3个候选文本片段特征信息之间的匹配概率,例如文本片段A的文本片段特征信息与候选文本片段特征信息a1~a3之间的匹配概率分别为0.3、0.5、0.8,则将最大匹配概率0.8确定为第一目标匹配概率,将该第一目标匹配概率0.8确定为文本片段A的通顺度,作为第一通顺度,则文本片段A对应的第一通顺度为0.8。
在一种可能的实现方式中,例如文本片段的文本片段特征信息为“今天天气真好”,第一模型中的3个候选文本片段的文本片段特征信息分别为“今天天气真不错”、“明天天气真好”、“今天下雨了”,基于第一模型对“今天天气真好”进行处理,得到“今天天气真好”与“今天天气真不错”、“明天天气真好”、“今天下雨了”对应的匹配概率分别为0.9、0.7、0.3,则用户可以从3个候选文本片段的文本片段特征信息对应的匹配概率中选取第一目标匹配概率,例如用户选择“今天天气真不错”对应的匹配概率0.9,则当接收到用户的选择指令时,根据用户的选择指令确定第一目标匹配概率为0.9,则将0.9确定为该文本片段对应的第一通顺度。其中,选择指令包括第一目标匹配概率。
S104,根据每个文本片段对应的多个分词的分词特征信息,确定每个文本片段的通顺度,作为第二通顺度。
本申请实施例中,可以通过以下过程确定每个文本片段的第二通顺度:
一、基于第二模型对每个文本片段对应的多个分词中的每个分词的分词特征信息进行处理,得到每个文本片段对应的多个分词中的每个分词的分词特征信息与第二模型中的多个候选分词的分词特征信息之间的匹配概率,作为第二匹配概率。
二、从第二匹配概率中确定最大的第二匹配概率,作为第二目标匹配概率。
三、将第二目标匹配概率确定为每个分词的通顺度。
四、根据每个分词的通顺度,确定每个文本片段的通顺度,作为第二通顺度。
本申请实施例中,计算每个分词的分词特征信息与第二模型中的多个候选分词的分词特征信息之间的匹配概率,即计算每个分词的分词特征信息与第二模型中的多个候选分词的分词特征信息之间的特征相似度,相似度的计算方法还包括皮尔逊相关系数法、Cosine相似度法等,此处不做限定。也就是说,将每个分词的分词特征信息输入到第二模型中,得到该每个分词的分词特征信息为第二模型中多个候选分词的分词特征信息中每个候选分词的分词特征信息的可能性。
具体实现中,第二模型例如可以为生成性预训练模型(Generative Pre-Training,GPT),可选的,第二模型中可以包含多种语言,例如中文、英文、日文、韩文,等等。具体实现中,可以根据文本片段中各个分词的语言类型确定第二模型的语言类型。
举例来对确定第二通顺度的过程进行说明,例如第二模型中包括5个候选分词的分词特征信息分别为候选分词特征信息b1~b5,基于第二模型对分词B的分词特征信息进行处理,得到分词B的分词特征信息与第二模型中的多个候选分词特征信息之间的匹配概率分别为0.3、0.5、0.6、0.7、0.85,则将最大匹配概率0.85确定为第二目标匹配概率,将该第二目标匹配概率0.85确定为分词B的通顺度,则分词B对应的通顺度为0.85。
本申请实施例中是对每个文本片段对应的多个分词中的任意一个分词的分词特征信息进行的处理,得到该分词对应的通顺度,针对每个文本片段对应的多个分词中的其他分词的分词特征信息,可以参考对该分词的分词特征信息进行处理的方式,从而得到每个文本片段对应的多个分词的通顺度。再通过计算每个文本片段对应的多个分词的通顺度之积,得到每个文本片段对应的第二通顺度。例如,文本片段C对应3个分词分别为分词c1、c2、c3,分词c1、c2、c3对应的通顺度分别为0.6、0.7、0.8,则文本片段C的第二通顺度值为0.6*0.7*0.8=0.336。
S105,根据第一通顺度以及第二通顺度确定目标文本的文本通顺度。
本申请实施例中,针对目标文本中对应的至少一个文本片段中的每个文本片段,通过上述步骤可以计算得到每个文本片段对应的第一通顺度以及第二通顺度,通过每个文本片段对应的第一通顺度以及第二通顺度,得到每个文本片段对应的总通顺度,再根据每个文本片段对应的总通顺度,得到目标文本的文本通顺度。
具体实现中,可以通过以下过程确定目标文本的文本通顺度:
一、对第一通顺度以及第二通顺度进行归一化处理,得到归一化后的第一通顺度以及归一化后的第二通顺度。
具体实现中,可以计算得到目标文本对应的至少一个文本片段中每个文本片段的第一通顺度,一个文本片段对应一个第一通顺度。例如目标文本包含n个文本片段,则计算得到n个第一通顺度,可以通过公式(1-1)对该n个第一通顺度进行计算,得到归一化后的n个第一通顺度。归一化前的一个第一通顺度对应归一化后的一个第一通顺度,即归一化前的第一通顺度的数量与归一化后的第一通顺度的数量相等。
同样的,可以计算得到目标文本对应的至少一个文本片段中每个文本片段的第二通顺度,例如目标文本包含n个文本片段,则计算得到n个第二通顺度,可以通过公式(1-1)对该n个第二通顺度进行计算,得到归一化后的n个第二通顺度。归一化前的第二通顺度的数量与归一化后的第二通顺度的数量相等。
二、计算归一化后的第一通顺度以及归一化后的第二通顺度的平均值,得到每个文本片段的第四通顺度。
例如,对某一个文本片段对应的第一通顺度以及第二通顺度分别进行归一化处理后,得到该文本片段对应的归一化后的第一通顺度以及归一化后的第二通顺度分别为0.2、0.3,则该文本片段的第四通顺度为(0.2+0.3)/2=0.25。
三、根据每个文本片段的第四通顺度确定目标文本的文本通顺度。
这里,目标文本的文本通顺度对应的数值越大,目标文本的通顺度越高;目标文本的文本通顺度对应的数值越小,目标文本的通顺度越低。
由于上述步骤计算出目标文本中每个文本片段的第四通顺度,因此通过计算目标文本中各个文本片段的第四通顺度的平均值,得到目标文本的文本通顺度。例如目标文本中包含n个文本片段,n个文本片段对应的第四通顺度分别为Y1~Yn,则目标文本的文本通顺度为(Y1+Y2+Y3+…+Yn)/n。本申请中的分词的分词特征信息、文本片段的文本片段特征信息、以及通顺度可以存储在区块链中。
可选的,本申请中的计算机设备可以是指区块链中的任一节点设备,所谓区块链是一种分布式数据存储、点对点传输(P2P传输)、共识机制、加密算法等计算机技术的新型应用模式,其本质上是一个去中心化的数据库;区块链可由多个借由密码学串接并保护内容的串连交易记录(又称区块)构成,用区块链所串接的分布式账本能让多方有效纪录交易,且可永久查验此交易(不可篡改)。其中,共识机制是指区块链网络中实现不同节点之间建立信任、获取权益的数学算法;也就是说,共识机制是区块链各网络节点共同认可的一种数学算法。本申请可利用区块链的共识机制,来实现从不同维度对文本的通顺度进行判断,因此可以提高判断文本通顺度的准确性。
例如,区块链中的各个节点设备对上述步骤S101~S105的执行结果进行共识验证,每个步骤的执行结果均被共识验证通过,则可以确定文本通顺度的准确性比较高;如果存在步骤的执行结果未被共识验证通过,则可以确定文本通顺度的准确性比较低,则节点设备可以再次执行上述步骤S101~S105,重新对文本的通顺度进行判断。或者,区块链中的各个节点设备可以对目标文本的文本通顺度(即仅对步骤S105的执行结果)进行共识验证,如果共识验证通过,则确定文本通顺度的准确性比较高;如果共识验证未通过,则确定文本通顺度的准确性比较低,节点设备可再次执行上述步骤S101~S105,重新判断目标文本的文本通顺度。
本申请实施例中,通过获取目标文本中的每个文本片段的通顺度,以及获取目标文本中的每个分词的通顺度,并基于目标文本中的每个文本片段的通顺度和目标文本中的每个分词的通顺度确定目标文本的通顺度,即从不同维度对文本的通顺度进行判断,因此可以提高判断文本通顺度的准确性。
请参见图2,是本申请实施例提供的一种文本通顺度确定的流程示意图。如图2所示,该方法实施例包括如下步骤:
S201,对目标文本进行划分,得到至少一个文本片段,对至少一个文本片段中的每个文本片段进行划分,得到每个文本片段对应的多个分词。
S202,提取至少一个文本片段中的每个文本片段的文本片段特征信息,以及每个文本片段对应的多个分词的分词特征信息。
S203,根据每个文本片段的文本片段特征信息确定每个文本片段的通顺度,作为第一通顺度。
S204,根据每个文本片段对应的多个分词的分词特征信息,确定每个文本片段的通顺度,作为第二通顺度。
这里,步骤S201-S204的具体实现方式可参考图1对应的实施例中步骤S101-S104的描述,此处不再赘述。
S205,根据每个文本片段的文本片段特征信息确定每个文本片段对应的目标应用场景。
这里,文本片段对应的目标应用场景例如可以为与文本片段相匹配的应用场景。例如,应用场景可以包括法律领域、医学领域、技术领域、教育领域或者其他领域对应的应用场景。例如文本片段为“原告主张被告赔偿一万元精神损失费”,则该文本片段对应的目标应用场景为法律领域,等等。可选的,可以针对目标文本对应的每个文本片段确定一个对应的目标应用场景,也可以针对一个目标文本确定一个目标应用场景。
S206,根据每个文本片段的文本片段特征信息和目标应用场景,确定每个文本片段的通顺度,作为第三通顺度。
本申请实施例中,可以通过以下过程确定每个文本片段的第三通顺度:
一、获取与目标应用场景匹配的第三模型。
这里,例如目标文本为法律文书,则目标应用场景例如可以为法律领域,则第三模型中包括法律领域对应的多个候选文本片段特征信息;或者,目标文本中包含“医疗理赔”等分词,则目标应用场景例如可以为医疗领域,等等。
二、基于第三模型对每个文本片段的文本片段特征信息进行处理,得到每个文本片段的文本片段特征信息对应的场景片段集合。
其中,第三模型中包括场景片段集合和场景文本库,场景片段集合是根据场景文本库确定的。也就是说,场景文本库是第三模型中包含的文本片段库,场景片段集合中文本片段的数量小于或等于场景文本库中文本片段的数量。例如场景文本库包括第三模型中法律领域的所有应用场景对应的文本片段,场景片段集合可以为民法对应的所有应用场景文本片段、刑法对应的所有应用场景文本片段,或者专利法对应的所有应用场景文本片段,等等。
三、分别统计场景片段集合中每个候选文本片段的文本片段特征信息在场景文本库中出现的次数,作为第一出现次数,获取每个文本片段的文本片段特征信息在场景文本库中的第二出现次数。
例如,场景文本库包括“我爱深圳,去深圳,离开深圳和喜欢深圳”,文本片段“爱深圳”对应的场景片段集合包括“爱深圳、去深圳、离开深圳和喜欢深圳”,其中,“爱深圳”、“去深圳”、“离开深圳”和“喜欢深圳”在场景文本库中的出现次数分别为1、1、1和1。文本片段“爱深圳”在场景文本库中的第二出现次数为1。
四、获取第一出现次数之间的次数总和,计算第二出现次数与该次数总和之间的比值。
如上所示,第一出现次数之间的次数总和为1+1+1+1=4,则第二出现次数与第一出现次数之间的次数总和之间的比值为1/4。
五、根据比值确定每个文本片段的通顺度,作为第三通顺度。
这里,可以根据第二出现次数与第一出现次数之间的次数总和之间的比值的倒数确定每个文本片段的通顺度,例如文本片段对应的第二出现次数与第一出现次数之间的次数总和之间的比值为P1,则文本片段的第三通顺度为1/P1。上述步骤是将一个文本片段拆分成多个分词组合进行的处理,得到该每个分词组合对应的第二出现次数与第一出现次数之间的次数总和之间的比值,因此该文本片段对应的第三通顺度为每个分词组合对应的比值之积的倒数。例如,将文本片段拆分成3个分词组合,每个分词组合对应的比值分别为P1、P2、P3,则文本片段对应的第三通顺度为1/P1*P2*P3。
具体实现中,第三模型例如可以为自然语言处理模型(Natural LanguageProcessing,NLP),可选的,第三模型中可以包含多种语言,例如中文、英文、日文、韩文,等等。具体实现中,可以根据文本片段的语言类型确定第三模型的语言类型。
举例来对确定第三通顺度的过程进行说明,首先获取与目标应用场景匹配的第三模型,基于第三模型对文本片段D的文本片段特征信息进行处理,得到文本片段D的文本片段特征信息对应的场景片段集合,文本片段D包括2个分词组合,对于文本片段D中分词组合1,分词组合1对应的场景片段集合中包含3个候选文本片段的文本片段特征信息,统计分词组合1中3个候选文本片段的文本片段特征信息在场景文本库中出现的第一出现次数分别为1、2、4,分词组合1在场景文本库中的第二出现次数为1,则第二出现次数与第一出现次数之间的次数总和之间的比值为1/7。对于文本片段D中分词组合2,分词组合2对应的场景片段集合中包含2个候选文本片段的文本片段特征信息,2个候选文本片段的文本片段特征信息在场景文本库中出现的第一出现次数分别为1、5,分词组合2在场景文本库中的第二出现次数为2,则第二出现次数与第一出现次数之间的次数总和之间的比值为2/(1+5)=1/3,则文本片段D对应的第三通顺度为1/(1/7*1/3)=21。
本申请实施例中,针对目标文本中的任意一个文本片段,通过确定该文本片段对应的目标应用场景,从而确定该目标应用场景对应的第三模型,得到该文本片段对应的第三通顺度,对于目标文本中的其他文本片段,可参照该文本片段的处理方式进行处理,得到目标文本中每个文本片段对应的第三通顺度,此处不再赘述。
S207,根据第一通顺度、第二通顺度以及第三通顺度,确定目标文本的文本通顺度。
本申请实施例中,针对目标文本中对应的至少一个文本片段中的每个文本片段,通过上述步骤可以计算得到每个文本片段对应的第一通顺度、第二通顺度以及第三通顺度,通过每个文本片段对应的第一通顺度、第二通顺度以及第三通顺度,得到每个文本片段对应的总通顺度,再根据每个文本片段对应的总通顺度,得到目标文本的文本通顺度。
具体实现中,可以通过以下过程确定目标文本的文本通顺度:
一、对第一通顺度、第二通顺度以及第三通顺度进行归一化处理,得到归一化后的第一通顺度、归一化后的第二通顺度以及归一化后的第三通顺度。
具体对第一通顺度、第二通顺度以及第三通顺度进行归一化处理的方法可参考公式(1-1),此处不再赘述。
二、计算归一化后的第一通顺度、归一化后的第二通顺度以及归一化后的第三通顺度的平均值,得到每个文本片段的第四通顺度。
例如,对文本片段对应的第一通顺度、第二通顺度以及第三通顺度分别进行归一化后,得到归一化后的第一通顺度、归一化后的第二通顺度以及归一化后的第三通顺度分别为0.2、0.3、0.4,则该文本片段的第四通顺度为(0.2+0.3+0.4)/3=0.3。
在一种可能的实现方式中,可以根据以下方式计算每个文本片段的第四通顺度。
一、获取第一通顺度对应的第一权重、第二通顺度对应的第二权重以及第三通顺度对应的第三权重。
这里,由于第一通顺度、第二通顺度以及第三通顺度是将文本片段分别输入到预先训练的第一模型、第二模型以及第三模型确定出来的,且第三模型为与文本片段对应的目标应用场景匹配的模型,因此相较于第一模型和第二模型而言,第三模型更具有针对性,即第三通顺度与文本片段对应的应用场景结合更紧密,因此可以设置第三权重大于第二权重以及第一权重,从而可以提高确定文本片段通顺度的准确性,进而提高确定目标文本通顺度的准确性。
二、根据第一权重、第二权重以及第三权重对第一通顺度、第二通顺度以及第三通顺度进行加权计算,得到每个文本片段的第四通顺度。
这里,可以根据公式(1-2)计算每个文本片段的第四通顺度:
Fn=a*f1+b*f2+c*f3(1-2)
其中,Fn为目标文本中的第n个文本片段的第四通顺度,a为第一权重,b为第二权重,c为第三权重,f1为第一通顺度,f2为第二通顺度,f3为第三通顺度。
在一种可能的实现方式中,可以计算第一通顺度、第二通顺度以及第三通顺度的平均值,得到每个文本片段的第四通顺度。
具体的,例如文本片段的第一通顺度为f1、文本片段的第二通顺度为f2、文本片段的第三通顺度为f3,则该文本片段的第四通顺度为(f1+f2+f3)/3。
在一种可能的实现方式中,可以对第一通顺度、第二通顺度以及第三通顺度进行归一化处理,再根据归一化后的第一通顺度、第二通顺度以及第三通顺度,得到每个文本片段的第四通顺度。
具体实现中,可以计算得到目标文本对应的至少一个文本片段中每个文本片段的第一通顺度,例如目标文本包含n个文本片段,则计算得到n个第一通顺度、n个第二通顺度、n个第三通顺度,可以通过公式(1-1)对该n个第一通顺度、n个第二通顺度、n个第三通顺度进行计算,得到归一化后的n个第一通顺度、n个第二通顺度、n个第三通顺度。归一化前的一个第一通顺度对应归一化后的一个第一通顺度,即归一化前的第一通顺度的数量与归一化后的第一通顺度的数量相等。并且,归一化前的第二通顺度的数量与归一化后的第二通顺度的数量相等、归一化前的第三通顺度的数量与归一化后的第三通顺度的数量相等。
根据归一化后的第一通顺度、第二通顺度以及第三通顺度,得到每个文本片段的第四通顺度具体可以包括计算每个文本片段对应的归一化后的第一通顺度、第二通顺度以及第三通顺度的平均值,得到每个文本片段的第四通顺度;或者,根据第一权重、第二权重以及第三权重对归一化后的第一通顺度、归一化后的第二通顺度以及归一化后的第三通顺度进行加权计算,得到每个文本片段的第四通顺度。具体加权计算方法可参考公式(1-2)。
三、根据每个文本片段的第四通顺度确定目标文本的文本通顺度。
具体根据每个文本片段的第四通顺度确定目标文本的文本通顺度的方法可参考步骤S105中的方式。
本申请实施例中,通过获取目标文本中的每个文本片段的通顺度,获取目标文本中的每个分词的通顺度,以及结合每个文本片段对应的目标场景获取目标文本的通顺度,即从三个不同维度对文本的通顺度进行判断,因此可以提高判断文本通顺度的准确性。
上面介绍了本申请实施例的方法,下面介绍本申请实施例的装置。
参见图3,图3是本申请实施例提供的一种文本通顺度确定装置的组成结构示意图,上述一种文本通顺度确定装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该一种文本通顺度确定装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。该装置30包括:
文本划分模块301,用于对目标文本进行划分,得到至少一个文本片段,对该至少一个文本片段中的每个文本片段进行划分,得到该每个文本片段对应的多个分词;
特征信息提取模块302,用于提取该至少一个文本片段中的每个文本片段的文本片段特征信息,以及该每个文本片段对应的多个分词的分词特征信息;
第一确定模块303,用于根据该每个文本片段的文本片段特征信息确定该每个文本片段的通顺度,作为第一通顺度;
第二确定模块304,用于根据该每个文本片段对应的多个分词的分词特征信息,确定该每个文本片段的通顺度,作为第二通顺度;
第三确定模块305,用于根据该第一通顺度和该第二通顺度确定该目标文本的文本通顺度。
可选的,该文本划分模块301,具体用于:
根据预设片段划分规则对该目标文本进行划分,得到该至少一个文本片段,该预设片段划分规则包括符号划分、语义划分、长度划分中的至少一种;
根据预设分词划分规则对该至少一个文本片段中的每个文本片段进行划分,得到该每个文本片段对应的多个分词,该预设分词划分规则包括语义划分。
可选的,该第一确定模块303,具体用于基于第一模型对该每个文本片段的文本片段特征信息进行处理,得到该每个文本片段的文本片段特征信息与该第一模型中的多个候选文本片段的文本片段特征信息之间的匹配概率,作为第一匹配概率;
从该第一匹配概率中确定最大的第一匹配概率,作为第一目标匹配概率;
将该第一目标匹配概率确定为该每个文本片段的通顺度,作为该第一通顺度。
可选的,该第二确定模块304,具体用于基于第二模型对该每个文本片段对应的多个分词中的每个分词的分词特征信息进行处理,得到该每个文本片段对应的多个分词中的每个分词的分词特征信息与该第二模型中的多个候选分词的分词特征信息之间的匹配概率,作为第二匹配概率;
从该第二匹配概率中确定最大的第二匹配概率,作为第二目标匹配概率;
将该第二目标匹配概率确定为该每个分词的通顺度;
根据该每个分词的通顺度,确定该每个文本片段的通顺度,作为该第二通顺度。
可选的,该装置30还包括:第四确定模块306,用于:
根据该每个文本片段的文本片段特征信息确定该每个文本片段对应的目标应用场景;
根据该每个文本片段的文本片段特征信息和该目标应用场景,确定该每个文本片段的通顺度,作为第三通顺度;
该第三确定模块305,具体用于:
根据该第一通顺度、该第二通顺度以及该第三通顺度,确定该目标文本的文本通顺度。
可选的,该第四确定模块306,具体用于:
获取与该目标应用场景匹配的第三模型;
基于该第三模型对该每个文本片段的文本片段特征信息进行处理,得到该每个文本片段的文本片段特征信息对应的场景片段集合,该第三模型中包括该场景片段集合和场景文本库,该场景片段集合是根据该场景文本库确定的;
分别统计该场景片段集合中每个候选文本片段的文本片段特征信息在该场景文本库中出现的次数,作为第一出现次数,获取该每个文本片段的文本片段特征信息在该场景文本库中的第二出现次数;
获取该第一出现次数之间的次数总和,计算该第二出现次数与该次数总和之间的比值;
根据该比值确定该每个文本片段的通顺度,作为该第三通顺度。
可选的,该第三确定模块305,具体用于:
对该第一通顺度、该第二通顺度以及该第三通顺度进行归一化处理,得到归一化后的第一通顺度、归一化后的第二通顺度以及归一化后的第三通顺度;
计算该归一化后的第一通顺度、该归一化后的第二通顺度以及该归一化后的第三通顺度的平均值,得到该每个文本片段的第四通顺度;
根据该每个文本片段的第四通顺度确定该目标文本的文本通顺度。
需要说明的是,图3对应的实施例中未提及的内容可参见方法实施例的描述,这里不再赘述。
根据本申请的一个实施例,图1所示的一种文本通顺度确定方法所涉及的步骤可由图3所示的一种文本通顺度确定装置中的各个模块来执行。例如,图1中所示的步骤S101可由图3中的文本划分模块301来执行,图1中所示的步骤S102可由图3中的特征信息提取模块302来执行;图1中所示的步骤S103可由图3中的第一确定模块303来执行。根据本申请的一个实施例,图3所示的一种文本通顺度确定装置中的各个模块可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元,可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由多个单元来实现,或者多个模块的功能由一个单元实现。在本申请的其它实施例中,一种文本通顺度确定装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图1和图2中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图3中所示的一种文本通顺度确定装置,以及来实现本申请实施例的一种文本通顺度确定方法。上述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
本申请实施例中,通过获取目标文本中的每个文本片段的通顺度,以及获取目标文本中的每个分词的通顺度,并基于目标文本中的每个文本片段的通顺度和目标文本中的每个分词的通顺度确定目标文本的通顺度,即从不同维度对文本的通顺度进行判断,因此可以提高判断文本通顺度的准确性。
参见图4,图4是本申请实施例提供的一种计算机设备的组成结构示意图。如图4所示,上述计算机设备40可以包括:处理器401,网络接口404和存储器405,此外,上述计算机设备40还可以包括:用户接口403,和至少一个通信总线402。其中,通信总线402用于实现这些组件之间的连接通信。其中,用户接口403可以包括显示屏(Display)、键盘(Keyboard),可选用户接口403还可以包括标准的有线接口、无线接口。网络接口404可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器405可以是高速RAM存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器405可选的还可以是至少一个位于远离前述处理器401的存储装置。如图4所示,作为一种计算机可读存储介质的存储器405中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图4所示的计算机设备40中,网络接口404可提供网络通讯功能;而用户接口403主要用于为用户提供输入的接口;而处理器401可以用于调用存储器405中存储的设备控制应用程序,以实现:
对目标文本进行划分,得到至少一个文本片段,对该至少一个文本片段中的每个文本片段进行划分,得到该每个文本片段对应的多个分词;
提取该至少一个文本片段中的每个文本片段的文本片段特征信息,以及该每个文本片段对应的多个分词的分词特征信息;
根据该每个文本片段的文本片段特征信息确定该每个文本片段的通顺度,作为第一通顺度;
根据该每个文本片段对应的多个分词的分词特征信息,确定该每个文本片段的通顺度,作为第二通顺度;
根据该第一通顺度和该第二通顺度确定该目标文本的文本通顺度。
在一个实施例中,该处理器401执行该对目标文本进行划分,得到至少一个文本片段,对该至少一个文本片段中的每个文本片段进行划分,得到该每个文本片段对应的多个分词,包括:
根据预设片段划分规则对该目标文本进行划分,得到该至少一个文本片段,该预设片段划分规则包括符号划分、语义划分、长度划分中的至少一种;
根据预设分词划分规则对该至少一个文本片段中的每个文本片段进行划分,得到该每个文本片段对应的多个分词,该预设分词划分规则包括语义划分。
在一个实施例中,该处理器401执行该根据该每个文本片段的文本片段特征信息确定该每个文本片段的通顺度,作为第一通顺度,包括:
基于第一模型对该每个文本片段的文本片段特征信息进行处理,得到该每个文本片段的文本片段特征信息与该第一模型中的多个候选文本片段的文本片段特征信息之间的匹配概率,作为第一匹配概率;
从该第一匹配概率中确定最大的第一匹配概率,作为第一目标匹配概率;
将该第一目标匹配概率确定为该每个文本片段的通顺度,作为该第一通顺度。
在一个实施例中,该处理器401执行该根据该每个文本片段对应的多个分词的分词特征信息,确定该每个文本片段的通顺度,作为第二通顺度,包括:
基于第二模型对该每个文本片段对应的多个分词中的每个分词的分词特征信息进行处理,得到该每个文本片段对应的多个分词中的每个分词的分词特征信息与该第二模型中的多个候选分词的分词特征信息之间的匹配概率,作为第二匹配概率;
从该第二匹配概率中确定最大的第二匹配概率,作为第二目标匹配概率;
将该第二目标匹配概率确定为该每个分词的通顺度;
根据该每个分词的通顺度,确定该每个文本片段的通顺度,作为该第二通顺度。
在一个实施例中,该处理器401可以调用该程序代码以执行以下操作:
根据该每个文本片段的文本片段特征信息确定该每个文本片段对应的目标应用场景;
根据该每个文本片段的文本片段特征信息和该目标应用场景,确定该每个文本片段的通顺度,作为第三通顺度;
该根据该第一通顺度和该第二通顺度确定该目标文本的文本通顺度,包括:
根据该第一通顺度、该第二通顺度以及该第三通顺度,确定该目标文本的文本通顺度。
在一个实施例中,该处理器401执行该根据该每个文本片段的文本片段特征信息和该目标应用场景,确定该每个文本片段的通顺度,作为第三通顺度,包括:
获取与该目标应用场景匹配的第三模型;
基于该第三模型对该每个文本片段的文本片段特征信息进行处理,得到该每个文本片段的文本片段特征信息对应的场景片段集合,该第三模型中包括该场景片段集合和场景文本库,该场景片段集合是根据该场景文本库确定的;
分别统计该场景片段集合中每个候选文本片段的文本片段特征信息在该场景文本库中出现的次数,作为第一出现次数,获取该每个文本片段的文本片段特征信息在该场景文本库中的第二出现次数;
获取该第一出现次数之间的次数总和,计算该第二出现次数与该次数总和之间的比值;
根据该比值确定该每个文本片段的通顺度,作为该第三通顺度。
在一个实施例中,该处理器401执行该根据该第一通顺度、该第二通顺度以及该第三通顺度,确定该目标文本的文本通顺度,包括:
对该第一通顺度、该第二通顺度以及该第三通顺度进行归一化处理,得到归一化后的第一通顺度、归一化后的第二通顺度以及归一化后的第三通顺度;
计算该归一化后的第一通顺度、该归一化后的第二通顺度以及该归一化后的第三通顺度的平均值,得到该每个文本片段的第四通顺度;
根据该每个文本片段的第四通顺度确定该目标文本的文本通顺度。
应当理解,本申请实施例中所描述的计算机设备40可执行前文图1和图2所对应实施例中对上述一种文本通顺度确定方法的描述,也可执行前文图3所对应实施例中对上述一种文本通顺度确定装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
本申请实施例中,通过获取目标文本中的每个文本片段的通顺度,以及获取目标文本中的每个分词的通顺度,并基于目标文本中的每个文本片段的通顺度和目标文本中的每个分词的通顺度确定目标文本的通顺度,即从不同维度对文本的通顺度进行判断,因此可以提高判断文本通顺度的准确性。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被计算机执行时使该计算机执行如前述实施例该的方法,该计算机可以为上述提到的计算机设备的一部分。例如为上述的处理器401。作为示例,程序指令可被部署在一个计算机设备上执行,或者被部署位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,该的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (10)
1.一种文本通顺度确定方法,其特征在于,包括:
对目标文本进行划分,得到至少一个文本片段,对所述至少一个文本片段中的每个文本片段进行划分,得到所述每个文本片段对应的多个分词;
提取所述至少一个文本片段中的每个文本片段的文本片段特征信息,以及所述每个文本片段对应的多个分词的分词特征信息;
根据所述每个文本片段的文本片段特征信息确定所述每个文本片段的通顺度,作为第一通顺度;
根据所述每个文本片段对应的多个分词的分词特征信息,确定所述每个文本片段的通顺度,作为第二通顺度;
根据所述第一通顺度和所述第二通顺度确定所述目标文本的文本通顺度。
2.根据权利要求1所述的方法,其特征在于,所述对目标文本进行划分,得到至少一个文本片段,对所述至少一个文本片段中的每个文本片段进行划分,得到所述每个文本片段对应的多个分词,包括:
根据预设片段划分规则对所述目标文本进行划分,得到所述至少一个文本片段,所述预设片段划分规则包括符号划分、语义划分、长度划分中的至少一种;
根据预设分词划分规则对所述至少一个文本片段中的每个文本片段进行划分,得到所述每个文本片段对应的多个分词,所述预设分词划分规则包括语义划分。
3.根据权利要求1所述的方法,其特征在于,所述根据所述每个文本片段的文本片段特征信息确定所述每个文本片段的通顺度,作为第一通顺度,包括:
基于第一模型对所述每个文本片段的文本片段特征信息进行处理,得到所述每个文本片段的文本片段特征信息与所述第一模型中的多个候选文本片段的文本片段特征信息之间的匹配概率,作为第一匹配概率;
从所述第一匹配概率中确定最大的第一匹配概率,作为第一目标匹配概率;
将所述第一目标匹配概率确定为所述每个文本片段的通顺度,作为所述第一通顺度。
4.根据权利要求1所述的方法,其特征在于,所述根据所述每个文本片段对应的多个分词的分词特征信息,确定所述每个文本片段的通顺度,作为第二通顺度,包括:
基于第二模型对所述每个文本片段对应的多个分词中的每个分词的分词特征信息进行处理,得到所述每个文本片段对应的多个分词中的每个分词的分词特征信息与所述第二模型中的多个候选分词的分词特征信息之间的匹配概率,作为第二匹配概率;
从所述第二匹配概率中确定最大的第二匹配概率,作为第二目标匹配概率;
将所述第二目标匹配概率确定为所述每个分词的通顺度;
根据所述每个分词的通顺度,确定所述每个文本片段的通顺度,作为所述第二通顺度。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述每个文本片段的文本片段特征信息确定所述每个文本片段对应的目标应用场景;
根据所述每个文本片段的文本片段特征信息和所述目标应用场景,确定所述每个文本片段的通顺度,作为第三通顺度;
所述根据所述第一通顺度和所述第二通顺度确定所述目标文本的文本通顺度,包括:
根据所述第一通顺度、所述第二通顺度以及所述第三通顺度,确定所述目标文本的文本通顺度。
6.根据权利要求5所述的方法,其特征在于,所述根据所述每个文本片段的文本片段特征信息和所述目标应用场景,确定所述每个文本片段的通顺度,作为第三通顺度,包括:
获取与所述目标应用场景匹配的第三模型;
基于所述第三模型对所述每个文本片段的文本片段特征信息进行处理,得到所述每个文本片段的文本片段特征信息对应的场景片段集合,所述第三模型中包括所述场景片段集合和场景文本库,所述场景片段集合是根据所述场景文本库确定的;
分别统计所述场景片段集合中每个候选文本片段的文本片段特征信息在所述场景文本库中出现的次数,作为第一出现次数,获取所述每个文本片段的文本片段特征信息在所述场景文本库中的第二出现次数;
获取所述第一出现次数之间的次数总和,计算所述第二出现次数与所述次数总和之间的比值;
根据所述比值确定所述每个文本片段的通顺度,作为所述第三通顺度。
7.根据权利要求5或6所述的方法,其特征在于,所述根据所述第一通顺度、所述第二通顺度以及所述第三通顺度,确定所述目标文本的文本通顺度,包括:
对所述第一通顺度、所述第二通顺度以及所述第三通顺度进行归一化处理,得到归一化后的第一通顺度、归一化后的第二通顺度以及归一化后的第三通顺度;
计算所述归一化后的第一通顺度、所述归一化后的第二通顺度以及所述归一化后的第三通顺度的平均值,得到所述每个文本片段的第四通顺度;
根据所述每个文本片段的第四通顺度确定所述目标文本的文本通顺度。
8.一种文本通顺度确定装置,其特征在于,包括:
文本划分模块,用于对目标文本进行划分,得到至少一个文本片段,对所述至少一个文本片段中的每个文本片段进行划分,得到所述每个文本片段对应的多个分词;
特征信息提取模块,用于提取所述至少一个文本片段中的每个文本片段的文本片段特征信息,以及所述每个文本片段对应的多个分词的分词特征信息;
第一确定模块,用于根据所述每个文本片段的文本片段特征信息确定所述每个文本片段的通顺度,作为第一通顺度;
第二确定模块,用于根据所述每个文本片段对应的多个分词的分词特征信息,确定所述每个文本片段的通顺度,作为第二通顺度;
第三确定模块,用于根据所述第一通顺度和所述第二通顺度确定所述目标文本的文本通顺度。
9.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供数据通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010600771.XA CN111767714B (zh) | 2020-06-28 | 2020-06-28 | 一种文本通顺度确定方法、装置、设备及介质 |
PCT/CN2020/118628 WO2021114836A1 (zh) | 2020-06-28 | 2020-09-29 | 一种文本通顺度确定方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010600771.XA CN111767714B (zh) | 2020-06-28 | 2020-06-28 | 一种文本通顺度确定方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111767714A true CN111767714A (zh) | 2020-10-13 |
CN111767714B CN111767714B (zh) | 2022-02-11 |
Family
ID=72722595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010600771.XA Active CN111767714B (zh) | 2020-06-28 | 2020-06-28 | 一种文本通顺度确定方法、装置、设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111767714B (zh) |
WO (1) | WO2021114836A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560437A (zh) * | 2020-12-25 | 2021-03-26 | 北京百度网讯科技有限公司 | 文本通顺度的确定方法、目标模型的训练方法及装置 |
CN112966689A (zh) * | 2021-02-25 | 2021-06-15 | 维沃移动通信有限公司 | 文本识别方法、装置、电子设备和可读存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115209188B (zh) * | 2022-09-07 | 2023-01-20 | 北京达佳互联信息技术有限公司 | 多帐号同时直播的检测方法、装置、服务器及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021223A (zh) * | 2016-05-09 | 2016-10-12 | Tcl集团股份有限公司 | 一种句子相似度的计算方法及系统 |
CN107220380A (zh) * | 2017-06-27 | 2017-09-29 | 北京百度网讯科技有限公司 | 基于人工智能的问答推荐方法、装置和计算机设备 |
CN110162611A (zh) * | 2019-04-23 | 2019-08-23 | 苏宁易购集团股份有限公司 | 一种智能客服应答方法及系统 |
CN110442864A (zh) * | 2019-07-24 | 2019-11-12 | 新华智云科技有限公司 | 语句通顺度确定方法、装置、电子设备及存储介质 |
CN110990533A (zh) * | 2019-11-29 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 确定查询文本所对应标准文本的方法及装置 |
CN111027316A (zh) * | 2019-11-18 | 2020-04-17 | 大连云知惠科技有限公司 | 文本处理方法、装置、电子设备及计算机可读存储介质 |
US20200193153A1 (en) * | 2018-12-17 | 2020-06-18 | Cognition IP Technology Inc. | Multi-segment text search using machine learning model for text similarity |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040186704A1 (en) * | 2002-12-11 | 2004-09-23 | Jiping Sun | Fuzzy based natural speech concept system |
CN109408824B (zh) * | 2018-11-05 | 2023-04-25 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN110188351B (zh) * | 2019-05-23 | 2023-08-25 | 鼎富智能科技有限公司 | 语句通顺度及句法评分模型的训练方法及装置 |
CN110827085A (zh) * | 2019-11-06 | 2020-02-21 | 北京字节跳动网络技术有限公司 | 文本处理方法、装置及设备 |
CN110929098B (zh) * | 2019-11-14 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 视频数据的处理方法、装置、电子设备及存储介质 |
-
2020
- 2020-06-28 CN CN202010600771.XA patent/CN111767714B/zh active Active
- 2020-09-29 WO PCT/CN2020/118628 patent/WO2021114836A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021223A (zh) * | 2016-05-09 | 2016-10-12 | Tcl集团股份有限公司 | 一种句子相似度的计算方法及系统 |
CN107220380A (zh) * | 2017-06-27 | 2017-09-29 | 北京百度网讯科技有限公司 | 基于人工智能的问答推荐方法、装置和计算机设备 |
US20200193153A1 (en) * | 2018-12-17 | 2020-06-18 | Cognition IP Technology Inc. | Multi-segment text search using machine learning model for text similarity |
CN110162611A (zh) * | 2019-04-23 | 2019-08-23 | 苏宁易购集团股份有限公司 | 一种智能客服应答方法及系统 |
CN110442864A (zh) * | 2019-07-24 | 2019-11-12 | 新华智云科技有限公司 | 语句通顺度确定方法、装置、电子设备及存储介质 |
CN111027316A (zh) * | 2019-11-18 | 2020-04-17 | 大连云知惠科技有限公司 | 文本处理方法、装置、电子设备及计算机可读存储介质 |
CN110990533A (zh) * | 2019-11-29 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 确定查询文本所对应标准文本的方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560437A (zh) * | 2020-12-25 | 2021-03-26 | 北京百度网讯科技有限公司 | 文本通顺度的确定方法、目标模型的训练方法及装置 |
CN112560437B (zh) * | 2020-12-25 | 2024-02-06 | 北京百度网讯科技有限公司 | 文本通顺度的确定方法、目标模型的训练方法及装置 |
CN112966689A (zh) * | 2021-02-25 | 2021-06-15 | 维沃移动通信有限公司 | 文本识别方法、装置、电子设备和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021114836A1 (zh) | 2021-06-17 |
CN111767714B (zh) | 2022-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dahouda et al. | A deep-learned embedding technique for categorical features encoding | |
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
CN111695352A (zh) | 基于语义分析的评分方法、装置、终端设备及存储介质 | |
CN111767714B (zh) | 一种文本通顺度确定方法、装置、设备及介质 | |
CN111325029B (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
US10824816B2 (en) | Semantic parsing method and apparatus | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
CN111695338A (zh) | 基于人工智能的面试内容精炼方法、装置、设备及介质 | |
US11651015B2 (en) | Method and apparatus for presenting information | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN112185361B (zh) | 一种语音识别模型训练方法、装置、电子设备及存储介质 | |
CN113505601A (zh) | 一种正负样本对构造方法、装置、计算机设备及存储介质 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN112084779A (zh) | 用于语义识别的实体获取方法、装置、设备及存储介质 | |
CN115438149A (zh) | 一种端到端模型训练方法、装置、计算机设备及存储介质 | |
CN111291551A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN113360654B (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN115878752A (zh) | 文本情感的分析方法、装置、设备、介质及程序产品 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN113723077A (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN111783425A (zh) | 基于句法分析模型的意图识别方法及相关装置 | |
Ananth et al. | Grammatical tagging for the Kannada text documents using hybrid bidirectional long-short term memory model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40030008 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |