CN112446205A - 语句判别方法、装置、设备及存储介质 - Google Patents
语句判别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112446205A CN112446205A CN202011384363.1A CN202011384363A CN112446205A CN 112446205 A CN112446205 A CN 112446205A CN 202011384363 A CN202011384363 A CN 202011384363A CN 112446205 A CN112446205 A CN 112446205A
- Authority
- CN
- China
- Prior art keywords
- word
- pair
- predicted
- statement
- affiliation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能技术领域,公开了一种语句判别方法、装置、计算机设备及计算机可读存储介质,该方法包括:通过对待处理文本进行拆分,生成所述待处理文本的字词集合;确定所述字词集合中各个字词之间的附属关系,并根据各个所述字词之间的附属关系构建对应的语言模型;获取待预测语句,根据所述待预测语句和所述语言模型,获取所述待预测语句的频率值;根据所述待预测语句的频率值,确定所述待预测语句是否通顺,实现无监督的方法建模语句的分布,大大降低了人力成本,以及通过对语句的附属关系结构的解析,加入了先验知识,从而能够充分利用上下文语义,提高了语言模型的准确率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种语句判别方法、装置、计算机设备及计算机可读存储介质。
背景技术
在会议纪要和公文撰写的过程中,错别字和语句不通的情况往往难以避免;为了提高公文和会议纪要的撰写质量,减少后续校对时间并提高办公效率,对语句通顺度的智能判别是非常重要的。
目前而言,对语句通顺度判别的方法主要有两种,第一种方式是通过带标签的训练样本训练语言模型,从而使训练后的语言模型具有判别错别字和语句不通的功能;第二种方法是对输入文本的字词分布进行构建语言模型,输入句子并输出该句出现的概率,通过选取阈值来判别句子通顺与否。但第一种方法往往需要人工对训练样本进行标注,成本较高,同时需要较为复杂的计算才能保证判别准确率;第二种方法由于对文本采用顺序建模的方式并规定了待训练文本的长度,致使语言模型无法充分利用待训练文本中字词的上下文语义,从而无法得到长距离字词之间依赖关系,导致语言模型的准确率较低。
发明内容
本申请的主要目的在于提供一种语句判别方法、装置、计算机设备及计算机可读存储介质,旨在解决现有的训练语言模型的成本较高和无法得到长距离字词之间依赖关系,导致语言模型的准确率较低的技术问题。
第一方面,本申请提供一种语句判别方法,所述语句判别方法包括以下步骤:
对待处理文本进行拆分,生成所述待处理文本的字词集合;
确定所述字词集合中各个字词之间的附属关系,并根据各个所述字词之间的附属关系构建对应的语言模型;
获取待预测语句,根据所述待预测语句和所述语言模型,获取所述待预测语句的频率值;
根据所述待预测语句的频率值,确定所述待预测语句是否通顺。
第二方面,本申请还提供一种语句判别装置,所述语句判别装置包括:
生成模块,用于对待处理文本进行拆分,生成所述待处理文本的字词集合;
确定及构建模块,用于确定所述字词集合中各个字词之间的附属关系,并根据各个所述字词之间的附属关系构建对应的语言模型;
获取模块,用于获取待预测语句,根据所述待预测语句和所述语言模型,获取所述待预测语句的频率值;
确定模块,用于根据所述待预测语句的频率值,确定所述待预测语句是否通顺。
第三方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的语句判别方法的步骤。
第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的语句判别方法的步骤。
本申请提供一种语句判别方法、装置、计算机设备及计算机可读存储介质,通过对待处理文本进行拆分,生成所述待处理文本的字词集合;确定所述字词集合中各个字词之间的附属关系,并根据各个所述字词之间的附属关系构建对应的语言模型;获取待预测语句,根据所述待预测语句和所述语言模型,获取所述待预测语句的频率值;根据所述待预测语句的频率值,确定所述待预测语句是否通顺,实现无监督的方法建模语句的分布,大大降低了人力成本,以及通过对语句的附属关系结构的解析,加入了先验知识,从而能够充分利用上下文语义,提高了语言模型的准确率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种语句判别方法的流程示意图;
图2为图1中的语句判别方法的子步骤流程示意图;
图3为图1中的语句判别方法的子步骤流程示意图;
图4为本申请实施例提供的一种语句判别装置的示意性框图;
图5为本申请一实施例涉及的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请实施例提供一种语句判别方法、装置、计算机设备及计算机可读存储介质。其中,该语句判别方法可应用于计算机设备中,该计算机设备可以是笔记本电脑、台式电脑等电子设备。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请的实施例提供的一种语句判别方法的流程示意图。
如图1所示,该语句判别方法包括步骤S101至步骤S104。
步骤S101、对待处理文本进行拆分,生成所述待处理文本的字词集合。
示范性的,获取待处理文本,对该待处理文本进行拆分,拆分的方式包括按照预置字符串规则对该待处理文本进行拆分,生成该待处理文本的字词集合。例如,该待处理文本为“小明今天吃了两个面包”,通过预置字符串规则,将该“小明今天吃了两个面包”拆分为“小明、今天、吃、了、两个、面包”等字词,将该字词“小明、今天、吃、了、两个、面包”作为该“小明今天吃了两个面包”的字词集合,其中,该预置字符串规则,包括一个字符串、两个字符串、三个字符串、四个字符串等。
示范例为,所述对待处理文本进行拆分,生成所述待处理文本的字词集合,包括:基于预置分句规则对所述待处理文本进行拆分,得到所述待处理文本对应的多个短句;基于预置分词规则对多个所述短句进行拆分,得到各个所述短句对应的字词,并生成字词集合。
示范性的,获取待处理文本,基于预置分句规则该待处理文本进行拆分,得到该待处文本中的多个短句。例如,获取到的待处理文本为“小明今天吃了两个面包,我很生气!然而也并没有什么办法”,按照预置分句规则,其中,该分句规则为按照符号句号、逗号、问号以及感叹号等,对该“小明今天吃了两个面包,我很生气!然而也并没有什么办法”进行分句,得到“小明今天吃了两个面包”、“我很生气”和“然而也并没有什么办法”多个短句。在获取到待处理文本对应额多个短句时,按照预置分词规则每一个短句进行分词,得到各个短句的字词,将各个短句的字词进行集合,生成该待处理文本的字词集合,其中,该预置分词规则包括多个字词组合。例如,按照预置分词规则对该短句“小明今天吃了两个面包”进行分词,得到字词“小明、今天、吃、了、两个、面包”。将各个短句的字词进行集合,生成各个短句对应的待处理文本的字词集合。
步骤S102、确定所述字词集合中各个字词之间的附属关系,并根据各个所述字词之间的附属关系构建对应的语言模型。
示范性的,通过附属关系句法分析对该字词集合中的各个字词进行分析,确定各个字词之间的附属关系,生成附属关系树。该附属关系句法分析标是通过分析语言单位当中词汇成分之间的附属关系来解释其语法结构,它基于“句子中的核心动词是支配其他成分的中心成分,而它本身不受任何成分支配”这样的观点,句中除了核心动词之外的各个词汇都作为句法中的成分受到核心动词的支配。根据附属关系树得到各个字词的附属关系来训练预置模型,通过各个字词的附属关系优化该预置模型的参数,构建对应的语言模型,该语言模型为2-gram语言模型。
在一实施例中,具体地,参照图2,步骤S102包括:子步骤S1021至子步骤S1023。
子步骤S1021、根据所述初始化子孙集合中的字词与所述节点集合中的字词,组成多个字词对。
示范性的,该字词集合包括初始化子孙集合和节点集合,其中,初始化子孙集合和节点集合中的字词相同。例如,用child表示初始化子孙集合,用All表示节点集合,其中child包括{W1、W2、W3......Wi、Wj},All包括{W1、W2、W3......Wi、Wj}。分别从child和中All查找字词,组成对应的多个字词对。例如,从child中查找Wi,从All中查找Wj,组成对应的字词对(Wi Wj)。
子步骤S1022、基于预置熵模型,确定各个字词对的权值。
示范性的,将各个字词对输入到预置熵模型中,通过该熵模型对该各个字词对进行分析,得到各个字词对的特征函数,基于该特征函数得到各个字词对的权重。根据各个字词对的特征函数和各个字词对的权重,确定该熵模型输出的各个字词对的权值。
在一实施例中,所述基于预置熵模型,确定各个字词对的权值,包括:基于预置熵模型,确定各个字词对的特征函数;基于所述各个字词对的特征函数,确定所述各个字词对的权重;根据所述各个字词对的权重和所述各个字词对的特征函数,确定所述各个字词对的权值。
示范性的,将各个字词对分别输入到预置熵模型中,根据预置熵模型和各个字词对,得到各个字词对的特征函数。例如,将各个字词对中的任意一个字词输入到预置熵模型中。通过熵模型中预置的特征模板C,生成该字词对的特征,通过预置特征模板公式得到该特征对应的特征模板,以获取该特征在该特征模板中对应的特征函数,其中特征模板的数量为多个,每一个特征模板都不相同。例如,将字词对(Wi Wj)输入到熵模型中,基于该熵模型中的预置的特征模板公式:其中,fk(i,j)为第k个特征模板对应的特征函数,(Wi Wj)为字词对,C为特征模板数量。
在获取到字词对的在第k个特征模板对应的特征函数时,根据该熵模型中的最大熵模型,得到该字词对在第k个特征模板生成的特征函数的参数权重,将该参数权重作为该字词对的权重。例如,基于最大熵模型中的权重公式其中,Wk为第k个特征模板生成的特征函数的参数权重,fk(i,j)为第k个特征模板对应的特征函数,Z为归一化因子,为定量,P(ji)为字词对(Wi Wj)的概率或频率,为定量。
在获取到字词对的权重和特征函数时,基于该预置熵模型中的预置权值公式,得到该字词对的取值。例如,基于预置权值公式W(i,j)=W×f(i,j),其中,W为该字词对(WiWj)的权重,f(i,j)为该字词对(Wi Wj)的特征函数,W(i,j)为该字词对(Wi Wj)的权值。
子步骤S1023、根据所述各个字词对的权值,确定所述多个字词对中的最优附属关系对,其中,所述最优附属关系对为多对。
示范性的,在获取到各个字词对的权值时,根据各个字词对的权值,确定多个字词对中的最优附属关系对。例如,通过比对权值的方式,确定最大权值对应的字词对为最优附属关系对,其中,最优附属关系对为多对,且每对最优附属关系对不相同。
在一实施例中,所述根据所述各个字词对的权值,确定所述多个字词对中的最优附属关系对,包括:比对相同字词组成的所述各个字词对的权值,确定权值最大的目标字词对;将所述目标字词对作为最优附属关系对。
示范性的,比对相同的字词组成的各个字词对,例如,比对字词对(Wi Wj)和(WjWi),确定权值最大的字词对为目标字词对,将该目标字词对作为最优附属关系对。例如,分别从child和中All查找字词,组成对应的多个字词对。例如,从child中查找Wi,从All中查找Wj,组成对应的字词对(Wi Wj),或者,从child中查找Wj,从All中查找Wi,组成对应的字词对(Wj Wi),比对(Wi Wj)与(Wj Wi),将权值最大的作为最优附属关系对。例如,分别获取(WjWi)的权值和(Wi Wj)的权值,若(Wj Wi)的权值大于(Wi Wj)的权值,则确定(Wj Wi)为最优附属关系对;若(Wj Wi)的权值小于(Wi Wj)的权值,则确定(Wi Wj)为最优附属关系对。
在一实施例中,具体地,参照图3,步骤S102包括:子步骤S1024至子步骤S1026。
子步骤S1024、将所述最优附属关系对分别从所述初始化子孙集合和所述节点集合中移出,组成最优附属关系对集合。
示范性的,在确定最优附属关系对时,将最优附属关系对分别从初始化子孙集合和节点集合中移出,组成最优附属关系对集合。例如,当确定(Wj Wi)为最优附属关系对时,将Wj从初始化子孙集合中移出,将Wi从节点集合中移出;或者,将Wj从节点集合中移出,将Wi从初始化子孙集合中移出。将移出的最优附属关系对组成最优附属关系对集合。
子步骤S1025、获取所述最优附属关系对集合中各个最优附属关系对的频率值,得到所述最优附属关系对集合的频率值。
示范性的,通过统计自然语言中最优附属关系对的频率值。例如,(Wj Wi)为最优附属关系对时,统计(Wj Wi)出现的频率值fij以及Wi出现的频率值fj,基于最优附属关系对的频率公式:得到(Wj Wi)的频率值。依次获取最优附属关系对集合中各个最优附属关系对的频率值,根据各个最优附属关系对的频率值,得到最优附属关系对集合的频率值。例如,最优附属关系对集合为P=(W1 W2、W2 W3、.......Wn-1 Wn),基于预置最优附属关系对集合频率公式P=P(W2|W1)×P(W3|W2)×P(Wn|Wn-1),得到最优附属关系对集合的频率值。
在统计(Wj Wi)出现的频率值fij以及Wi出现的频率值fj的过程中,确定频率值fij和fj是否为零,若为零时,使用加δ平滑进行平滑处理,这一平滑方法假设每一个词对至少出现δ次,对每一个词对,将其原本出现的频率fij改为fij+δ,从而对于每一个词对,其概率可以表示为:得到各个最优附属关系对应的频率值。
子步骤S1026、根据所述最优附属关系对集合的频率值和所述最优附属关系对集合训练预置模型,构建对应的语言模型。
示范性的,在得到最优附属关系对集的频率值和最优附属关系对集合时,将最优附属关系对集的频率值和最优附属关系对集合训练预置模型,通过最优附属关系对集的频率值和最优附属关系对集合不断训练预置模型的权重矩阵,得到对应的语言模型。
步骤S103、获取待预测语句,根据所述待预测语句和所述语言模型,获取所述待预测语句的频率值。
示范性的,获取待预测语句,基于预置分词规则对待预测语句进行拆分,得到该待预测语句对应的字词,并生成字词集合。该字词集合包括初始化子孙集合和节点集合,其中,初始化子孙集合和节点集合中的字词相同。例如,用child表示初始化子孙集合,用All表示节点集合,其中child包括{W1、W2、W3......Wi、Wj},All包括{W1、W2、W3......Wi、Wj}。分别从child和中All查找字词,组成对应的多个字词对。例如,从child中查找Wi,从All中查找Wj,组成对应的字词对(Wi Wj)。
将各个字词对输入到预置熵模型中,通过该熵模型对该各个字词对进行分析,得到各个字词对的特征函数,基于该特征函数得到各个字词对的权重。根据各个字词对的特征函数和各个字词对的权重,确定该熵模型输出的各个字词对的权值。比对相同的字词组成的各个字词对,例如,比对字词对(Wi Wj)和(Wj Wi),确定权值最大的字词对为目标字词对,将该目标字词对作为最优附属关系对。例如,分别从child和中All查找字词,组成对应的多个字词对。例如,从child中查找Wi,从All中查找Wj,组成对应的字词对(Wi Wj),或者,从child中查找Wj,从All中查找Wi,组成对应的字词对(Wj Wi),比对(Wi Wj)与(Wj Wi),将权值最大的作为最优附属关系对。例如,分别获取(Wj Wi)的权值和(Wi Wj)的权值,若(Wj Wi)的权值大于(Wi Wj)的权值,则确定(Wj Wi)为最优附属关系对;若(Wj Wi)的权值小于(Wi Wj)的权值,则确定(Wi Wj)为最优附属关系对。
在确定最优附属关系对时,将最优附属关系对分别从初始化子孙集合和节点集合中移出,组成最优附属关系对集合。例如,当确定(Wj Wi)为最优附属关系对时,将Wj从初始化子孙集合中移出,将Wi从节点集合中移出;或者,将Wj从节点集合中移出,将Wi从初始化子孙集合中移出。将移出的最优附属关系对组成该待预测语句的最优附属关系对集合。
在获取该待预测语句的最优附属关系对集合时,将该待预测语句的最优附属关系对集合输入到预置语言模型中,基于该预置语言模型对该待预测语句的最优附属关系对集合进行预测,得到该预置语言模型输出该待预测语句的最优附属关系对集合的频率值,将该频率值作为待预测语句频率值。
步骤S104、根据所述待预测语句的频率值,确定所述待预测语句是否通顺。
示范性的,在获取到该待预测语句频率值时,根据该待预测语句的频率值,确定待预测语句是否通顺。例如,获取预置阈值,将该待预测语句的频率值与预置阈值进行比对;若该待预测语句的频率值大于该预置阈值,则确定该待预测语句通顺;若该待预测语句的频率值小于或等于该预置阈值,则确定该待预测语句不通顺。
在本发明实施例中,将待处理文本进行拆分,得到对应的字词集合,将该字词集合基于附属关系句法分析生成附属关系树,获取每对附属关系对的权值,得到最优的附属关系对。将得到的最优的附属关系对生成最优的附属关系对集合,并确定每个最优的附属关系对的频率值来确定最优的附属关系集合的频率值,根据最优的附属关系集合的频率值和最优的附属关系集合训练预置模型,得到对应的语言模型,并根据语言模型预测待预测语句的频率值,从而根据待预测语句的频率值,确定该待预测语句是否通顺。相对于常见的有监督的文本分类方法,本发明实施例大大降低了人力成本,可以充分利用外部样本来改善模型的表现,一定程度上避免了训练样本特别是标注样本不足的问题;以及生成附属关系对构建语言模型,通过对语句的附属关系结构的解析,加入了先验知识,从而能够充分利用上下文语义,避免了传统的语言模型无法建模长距离依赖关系的缺点,从而提高语言模型的准确率。
请参照图4,图4为本申请实施例提供的一种语句判别装置的示意性框图。
如图4所示,该语句判别装置400,包括:生成模块401、确定及构建模块402、获取模块403、确定模块404。
生成模块401,用于对待处理文本进行拆分,生成所述待处理文本的字词集合;
确定及构建模块402,确定及构建模块,用于确定所述字词集合中各个字词之间的附属关系,并根据各个所述字词之间的附属关系构建对应的语言模型;
获取模块403,获取模块,用于获取待预测语句,根据所述待预测语句和所述语言模型,获取所述待预测语句的频率值;
确定模块404,用于根据所述待预测语句的频率值,确定所述待预测语句是否通顺。
其中,生成模块401具体还用于:
基于预置分句规则对所述待处理文本进行拆分,得到所述待处理文本对应的多个短句;
基于预置分词规则对多个所述短句进行拆分,得到各个所述短句对应的字词,并生成字词集合。
其中,确定及构建模块402具体还用于:
根据所述初始化子孙集合中的字词与所述节点集合中的字词,组成多个字词对;
基于预置熵模型,确定各个字词对的权值;
根据所述各个字词对的权值,确定所述多个字词对中的最优附属关系对,其中,所述最优附属关系对为多对。
其中,确定及构建模块402具体还用于:
基于预置熵模型,确定各个字词对的特征函数;
基于所述各个字词对的特征函数,确定所述各个字词对的权重;
根据所述各个字词对的权重和所述各个字词对的特征函数,确定所述各个字词对的权值。
其中,确定及构建模块402具体还用于:
比对相同字词组成的所述各个字词对的权值,确定权值最大的目标字词对;
将所述目标字词对作为最优附属关系对。
其中,确定及构建模块402具体还用于:
将所述最优附属关系对分别从所述初始化子孙集合和所述节点集合中移出,组成最优附属关系对集合;
获取所述最优附属关系对集合中各个最优附属关系对的频率值,得到所述最优附属关系对集合的频率值;
根据所述最优附属关系对集合的频率值和所述最优附属关系对集合训练预置模型,构建对应的语言模型。
其中,确定模块404还用于:
将所述待预测语句的频率值与预置阈值进行比对;
若所述待预测语句的概率值大于所述预置阈值,则确定所述待预测语句通顺;
若所述待预测语句的频率值小于或等于所述预置阈值,则确定所述待预测语句不通顺。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块及单元的具体工作过程,可以参考前述语句判别方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图5所示的计算机设备上运行。
请参阅图5,图5为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为终端。
如图5所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种语句判别方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种语句判别方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
对待处理文本进行拆分,生成所述待处理文本的字词集合;
确定所述字词集合中各个字词之间的附属关系,并根据各个所述字词之间的附属关系构建对应的语言模型;
获取待预测语句,根据所述待预测语句和所述语言模型,获取所述待预测语句的频率值;
根据所述待预测语句的频率值,确定所述待预测语句是否通顺。
在一个实施例中,所述处理器根据所述对待处理文本进行拆分,生成所述待处理文本的字词集合实现时,用于实现:
基于预置分句规则对所述待处理文本进行拆分,得到所述待处理文本对应的多个短句;
基于预置分词规则对多个所述短句进行拆分,得到各个所述短句对应的字词,并生成字词集合。
在一个实施例中,所述处理器所述确定所述字词集合中各个字词之间的附属关系实现时,用于实现:
根据所述初始化子孙集合中的字词与所述节点集合中的字词,组成多个字词对;
基于预置熵模型,确定各个字词对的权值;
根据所述各个字词对的权值,确定所述多个字词对中的最优附属关系对,其中,所述最优附属关系对为多对。
在一个实施例中,所述处理器所述基于预置熵模型,确定各个字词对的权值实现时,用于实现:
基于预置熵模型,确定各个字词对的特征函数;
基于所述各个字词对的特征函数,确定所述各个字词对的权重;
根据所述各个字词对的权重和所述各个字词对的特征函数,确定所述各个字词对的权值。
在一个实施例中,所述处理器所述根据所述各个字词对的权值,确定所述多个字词对中的最优附属关系对实现时,用于实现:
比对相同字词组成的所述各个字词对的权值,确定权值最大的目标字词对;
将所述目标字词对作为最优附属关系对。
在一个实施例中,所述处理器所述根据各个所述字词之间的附属关系构建对应的语言模型实现时,用于实现:
将所述最优附属关系对分别从所述初始化子孙集合和所述节点集合中移出,组成最优附属关系对集合;
获取所述最优附属关系对集合中各个最优附属关系对的频率值,得到所述最优附属关系对集合的频率值;
根据所述最优附属关系对集合的频率值和所述最优附属关系对集合训练预置模型,构建对应的语言模型。
在一个实施例中,所述处理器所述根据所述待预测语句的频率值,确定所述语句是否通顺实现时,用于实现:
将所述待预测语句的频率值与预置阈值进行比对;
若所述待预测语句的概率值大于所述预置阈值,则确定所述待预测语句通顺;
若所述待预测语句的频率值小于或等于所述预置阈值,则确定所述待预测语句不通顺。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参照本申请语句判别方法的各个实施例。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链语言模型的存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种语句判别方法,其特征在于,包括:
对待处理文本进行拆分,生成所述待处理文本的字词集合;
确定所述字词集合中各个字词之间的附属关系,并根据各个所述字词之间的附属关系构建对应的语言模型;
获取待预测语句,根据所述待预测语句和所述语言模型,获取所述待预测语句的频率值;
根据所述待预测语句的频率值,确定所述待预测语句是否通顺。
2.如权利要求1所述的语句判别方法,其特征在于,所述对待处理文本进行拆分,生成所述待处理文本的字词集合,包括:
基于预置分句规则对所述待处理文本进行拆分,得到所述待处理文本对应的多个短句;
基于预置分词规则对多个所述短句进行拆分,得到各个所述短句对应的字词,并生成字词集合。
3.如权利要求1所述的语句判别方法,其特征在于,所述字词集合包括:初始化子孙集合和节点集合;所述确定所述字词集合中各个字词之间的附属关系,包括:
根据所述初始化子孙集合中的字词与所述节点集合中的字词,组成多个字词对;
基于预置熵模型,确定各个字词对的权值;
根据所述各个字词对的权值,确定所述多个字词对中的最优附属关系对,其中,所述最优附属关系对为多对。
4.如权利要求3所述的语句判别方法,其特征在于,所述基于预置熵模型,确定各个字词对的权值,包括:
基于预置熵模型,确定各个字词对的特征函数;
基于所述各个字词对的特征函数,确定所述各个字词对的权重;
根据所述各个字词对的权重和所述各个字词对的特征函数,确定所述各个字词对的权值。
5.如权利要求3所述的语句判别方法,其特征在于,所述根据所述各个字词对的权值,确定所述多个字词对中的最优附属关系对,包括:
比对相同字词组成的所述各个字词对的权值,确定权值最大的目标字词对;
将所述目标字词对作为最优附属关系对。
6.如权利要求3所述的语句判别方法,其特征在于,所述根据各个所述字词之间的附属关系构建对应的语言模型,包括:
将所述最优附属关系对分别从所述初始化子孙集合和所述节点集合中移出,组成最优附属关系对集合;
获取所述最优附属关系对集合中各个最优附属关系对的频率值,得到所述最优附属关系对集合的频率值;
根据所述最优附属关系对集合的频率值和所述最优附属关系对集合训练预置模型,构建对应的语言模型。
7.如权利要求1所述的语句判别方法,其特征在于,所述根据所述待预测语句的频率值,确定所述语句是否通顺,包括:
将所述待预测语句的频率值与预置阈值进行比对;
若所述待预测语句的概率值大于所述预置阈值,则确定所述待预测语句通顺;
若所述待预测语句的频率值小于或等于所述预置阈值,则确定所述待预测语句不通顺。
8.一种语句判别装置,其特征在于,包括:
生成模块,用于对待处理文本进行拆分,生成所述待处理文本的字词集合;
确定及构建模块,用于确定所述字词集合中各个字词之间的附属关系,并根据各个所述字词之间的附属关系构建对应的语言模型;
获取模块,用于获取待预测语句,根据所述待预测语句和所述语言模型,获取所述待预测语句的频率值;
确定模块,用于根据所述待预测语句的频率值,确定所述待预测语句是否通顺。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的语句判别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的语句判别方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011384363.1A CN112446205A (zh) | 2020-12-01 | 2020-12-01 | 语句判别方法、装置、设备及存储介质 |
PCT/CN2021/084173 WO2022116443A1 (zh) | 2020-12-01 | 2021-03-30 | 语句判别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011384363.1A CN112446205A (zh) | 2020-12-01 | 2020-12-01 | 语句判别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112446205A true CN112446205A (zh) | 2021-03-05 |
Family
ID=74738926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011384363.1A Pending CN112446205A (zh) | 2020-12-01 | 2020-12-01 | 语句判别方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112446205A (zh) |
WO (1) | WO2022116443A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114154501A (zh) * | 2022-02-09 | 2022-03-08 | 南京擎天科技有限公司 | 一种基于无监督学习的中文地址分词方法及系统 |
WO2022116443A1 (zh) * | 2020-12-01 | 2022-06-09 | 平安科技(深圳)有限公司 | 语句判别方法、装置、设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070260450A1 (en) * | 2006-05-05 | 2007-11-08 | Yudong Sun | Indexing parsed natural language texts for advanced search |
US9767193B2 (en) * | 2015-03-27 | 2017-09-19 | Fujitsu Limited | Generation apparatus and method |
CN108255857B (zh) * | 2016-12-29 | 2021-10-15 | 北京国双科技有限公司 | 一种语句检测方法及装置 |
CN107590130B (zh) * | 2017-09-30 | 2019-06-14 | 北京三快在线科技有限公司 | 场景确定方法及装置、存储介质和电子设备 |
CN110188351B (zh) * | 2019-05-23 | 2023-08-25 | 鼎富智能科技有限公司 | 语句通顺度及句法评分模型的训练方法及装置 |
CN111651999A (zh) * | 2020-05-11 | 2020-09-11 | 重庆大学 | 一种面向ad量表书写能力检测的文本语义分析自动评价系统 |
CN112446205A (zh) * | 2020-12-01 | 2021-03-05 | 平安科技(深圳)有限公司 | 语句判别方法、装置、设备及存储介质 |
-
2020
- 2020-12-01 CN CN202011384363.1A patent/CN112446205A/zh active Pending
-
2021
- 2021-03-30 WO PCT/CN2021/084173 patent/WO2022116443A1/zh active Application Filing
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022116443A1 (zh) * | 2020-12-01 | 2022-06-09 | 平安科技(深圳)有限公司 | 语句判别方法、装置、设备及存储介质 |
CN114154501A (zh) * | 2022-02-09 | 2022-03-08 | 南京擎天科技有限公司 | 一种基于无监督学习的中文地址分词方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2022116443A1 (zh) | 2022-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112464641B (zh) | 基于bert的机器阅读理解方法、装置、设备及存储介质 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
US20190347571A1 (en) | Classifier training | |
CN110968660B (zh) | 基于联合训练模型的信息抽取方法和系统 | |
CN112395385B (zh) | 基于人工智能的文本生成方法、装置、计算机设备及介质 | |
CN110472040B (zh) | 评价信息的提取方法及装置、存储介质、计算机设备 | |
WO2019168189A1 (ja) | フレーズ生成関係性推定モデル学習装置、フレーズ生成装置、方法、及びプログラム | |
CN111680494A (zh) | 相似文本的生成方法及装置 | |
CN112528634A (zh) | 文本纠错模型训练、识别方法、装置、设备及存储介质 | |
Mukherjee et al. | Utilization of oversampling for multiclass sentiment analysis on amazon review dataset | |
CN114818891B (zh) | 小样本多标签文本分类模型训练方法及文本分类方法 | |
JP6603828B1 (ja) | フレーズ生成モデル学習装置、フレーズ生成装置、方法、及びプログラム | |
CN112686049A (zh) | 文本审核方法、装置、设备及存储介质 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
WO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
CN112446205A (zh) | 语句判别方法、装置、设备及存储介质 | |
CN111177375A (zh) | 一种电子文档分类方法及装置 | |
US20220156489A1 (en) | Machine learning techniques for identifying logical sections in unstructured data | |
CN113779988A (zh) | 一种通信领域过程类知识事件抽取方法 | |
CN111967267A (zh) | 一种基于XLNet的新闻文本地域提取的方法及系统 | |
CN116049387A (zh) | 一种基于图卷积的短文本分类方法、装置、介质 | |
CN115329075A (zh) | 基于分布式机器学习的文本分类方法 | |
CN114722832A (zh) | 一种摘要提取方法、装置、设备以及存储介质 | |
CN113806543A (zh) | 一种基于残差跳跃连接的门控循环单元的文本分类方法 | |
WO2020215581A1 (zh) | 基于双向长短时记忆网络模型的中文编码方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40040164 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |