CN112329433A - 文本通顺度检测方法、装置、设备及计算机可读存储介质 - Google Patents
文本通顺度检测方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112329433A CN112329433A CN202011249740.0A CN202011249740A CN112329433A CN 112329433 A CN112329433 A CN 112329433A CN 202011249740 A CN202011249740 A CN 202011249740A CN 112329433 A CN112329433 A CN 112329433A
- Authority
- CN
- China
- Prior art keywords
- text
- detected
- speech
- words
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 49
- 238000013528 artificial neural network Methods 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 30
- 230000011218 segmentation Effects 0.000 claims abstract description 24
- 238000004458 analytical method Methods 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 55
- 230000002457 bidirectional effect Effects 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 9
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 5
- 238000003780 insertion Methods 0.000 claims description 5
- 230000037431 insertion Effects 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims 2
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文本通顺度检测方法、装置、设备及计算机可读存储介质,该方法包括:获取待检测文本,将所述待检测文本依次进行分词和词性分析,得到所述待检测文本对应的词性信息;基于待检测文本对应的词性信息,确定待检测文本中词语的词性关联信息,以及基于待检测文本,确定待检测文本中词语的语义信息;融合所述待检测文本对应的所述词性关联信息和所述语义信息,得到所述待检测文本对应的句子特征信息;将所述句子特征信息输入至预存的神经网络分类器,以对所述待检测文本进行通顺度预测,得到所述待检测文本的文本通顺度结果。本发明解决了现有的文本通顺度检测技术精度较低的技术问题,提升了文本通顺度的检测精度。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本通顺度检测方法、装置、设备及计算机可读存储介质。
背景技术
文本通顺度是指判断一句话或者一段话是否符合人类说话方式,在语法语义上是否是可读可理解的。文本通顺度在自然语言处理领域中有很多相关应用,例如在机器翻译中,判断自动翻译后的句子是否通顺;在文本摘要生成中,判断自动生成的摘要是否通顺;在文书自动评审中,判断书写的一句话是否通顺等。
目前,对文本通顺度判断方法有两大类,一类是通过语言学制定出人类语言范式,例如陈述句是由主谓宾构成的、定语修饰语需要加在名词前等,但由于语言的字词组合具有非常大的灵活性,这种方法很难对多种复杂词性组合以及一词多义的问题进行解决;另一类是基于n-gram的统计语言模型方法,基本思想是将文本内容按照字节进行大小为n的滑动窗口操作,将各窗口内的连续字节出现概率相乘后作为句子出现的概率,但是该方法只考虑了词之间的共现信息,缺乏语义层面信息的考虑。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种文本通顺度检测方法、装置、设备及计算机可读存储介质,旨在解决现有的文本通顺度检测技术精度较低的技术问题。
为实现上述目的,本发明提供一种文本通顺度检测方法,所述文本通顺度检测方法包括以下步骤:
获取待检测文本,将所述待检测文本依次进行分词和词性分析,得到所述待检测文本对应的词性信息;
基于所述待检测文本对应的词性信息,确定所述待检测文本中词语的词性关联信息,以及基于所述待检测文本,确定所述待检测文本中词语的语义信息;
融合所述待检测文本对应的所述词性关联信息和所述语义信息,得到所述待检测文本对应的句子特征信息;
将所述句子特征信息输入至预存的神经网络分类器,以对所述待检测文本进行通顺度预测,得到所述待检测文本的文本通顺度结果。
可选地,所述基于所述待检测文本对应的词性信息,确定所述待检测文本中词语的词性关联信息,以及基于所述待检测文本,确定所述待检测文本中词语的语义信息的步骤包括:
将所述待检测文本对应的词性信息输入至词向量模型中,确定所述待检测文本中词语的词性关联信息;
将所述待检测文本输入至双向转换编码模型,输出所述待检测文本中词语的语义信息。
可选地,所述将所述待检测文本对应的词性信息输入至词向量模型中,确定所述待检测文本中词语的词性关联信息的步骤之前,还包括:
在通顺度语料库中获取通顺度语料集,对所述通顺度语料集进行分词处理,得到所述通顺度语料集对应的通顺度词集;
对所述通顺度词集进行词性分析,得到所述通顺度词集对应的词性信息集;
将所述词性信息集输入至初始词向量模型进行训练,得到训练所述初始词向量模型完成时对应的所述词向量模型。
可选地,所述在通顺度语料库中获取通顺度语料集,对所述通顺度语料集进行分词处理,得到所述通顺度语料集对应的通顺度词集的步骤之前,还包括:
获取通顺语料,并对所述通顺语料中的句子执行插入词语操作和/或删除词语操作和/或语序颠倒操作,得到不通顺语料;
基于所述通顺度语料和所述不通顺语料构建所述通顺度语料库,其中,所述通顺度语料库中的通顺度语料集包括所述通顺语料以及所述不通顺语料。
可选地,所述将所述句子特征信息输入至预存的神经网络分类器,以对所述待检测文本进行通顺度预测,得到所述待检测文本的文本通顺度结果的步骤包括:
将所述句子特征信息输入至预存的不同神经网络分类器,以基于不同神经网络分类器对应的各个预测模型对所述待检测文本进行预测,得到所述待检测文本对应的各个概率预测值;
融合处理所述各个概率预测值,得到所述待检测文本的文本通顺度结果。
可选地,所述融合处理所述各个概率预测值,得到所述待检测文本的文本通顺度结果的步骤包括:
平均处理所述各个概率预测值,得到所述待检测文本对应的目标概率预测值;
将所述目标概率预测值与预存阀值进行比较,并得到比较结果,基于该比较结果,得到所述待检测文本的文本通顺度结果。
可选地,所述基于所述待检测文本,确定所述待检测文本中词语的语义信息的步骤包括:
确定所述待检测文本中的目标词语以及确定所述待检测文本中所述目标词语对应的上下文词语;
基于所述目标词语对应的目标词向量以及所述上下文词语对应的上下文词向量,计算所述目标词语和所述上下文词语的相似度权重;
基于所述相似度权重和所述目标词语,确定所述待检测文本中词语的语义信息。
此外,为实现上述目的,本发明还提供一种文本通顺度检测装置,所述文本通顺度检测装置包括:
获取模块,用于获取待检测文本,将所述待检测文本依次进行分词和词性分析,得到所述待检测文本对应的词性信息;
确定模块,用于基于所述待检测文本对应的词性信息,确定所述待检测文本中词语的词性关联信息,以及基于所述待检测文本,确定所述待检测文本中词语的语义信息;
融合模块,用于融合所述待检测文本对应的所述词性关联信息和所述语义信息,得到所述待检测文本对应的句子特征信息;
预测模块,用于将所述句子特征信息输入至预存的神经网络分类器,以对所述待检测文本进行通顺度预测,得到所述待检测文本的文本通顺度结果。
此外,为实现上述目的,本发明还提供一种文本通顺度检测设备,所述文本通顺度检测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本通顺度检测程序,所述文本通顺度检测程序被所述处理器执行时实现如上述的文本通顺度检测方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本通顺度检测程序,所述文本通顺度检测程序被处理器执行时实现如上述的文本通顺度检测方法的步骤。
本发明通过获取待检测文本,将所述待检测文本依次进行分词和词性分析,得到所述待检测文本对应的词性信息;基于所述待检测文本对应的词性信息,确定所述待检测文本中词语的词性关联信息,以及基于所述待检测文本,确定所述待检测文本中词语的语义信息;融合所述待检测文本对应的词性关联信息和所述语义信息,得到所述待检测文本对应的句子特征信息;将所述句子特征信息输入至预存的神经网络分类器,以对所述待检测文本进行通顺度预测,得到所述待检测文本的文本通顺度结果。在本实施中,在判断文本通顺度时,分析待检测文本中各词语的词性关联关系得到待检测文本对应的词性关联信息,以及分析待检测文本中各句子的句子含义得到待检测文本对应的语义层面的信息,之后基于待检测文本各句子的词性关联信息和语义信息提取得到待检测文本的句子特征信息,通过同时使用词性关联信息以及语义信息,更加全面的对句子特征进行提取,以供后续可以基于神经网络分类器更全面的对句子是否通顺进行判断,使得文本通顺度检测结果更可靠准确,从而解决了现有的文本通顺度检测技术精度较低的技术问题,提升了文本通顺度的检测精度。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的文本通顺度检测设备结构示意图;
图2为本发明文本通顺度检测方法第一实施例的流程示意图;
图3为本发明文本通顺度检测方法第二实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的文本通顺度检测设备结构示意图。
本发明实施例文本通顺度检测设备可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该文本通顺度检测设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,文本通顺度检测设备还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。
本领域技术人员可以理解,图1中示出的文本通顺度检测设备结构并不构成对文本通顺度检测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及文本通顺度检测程序。
在图1所示的文本通顺度检测设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的文本通顺度检测程序,并执行本发明实施例提供的文本通顺度检测方法。
本发明还提供一种文本通顺度检测方法,参照图2,图2为本发明文本通顺度检测方法第一实施例的流程示意图。
在本实施例中,该文本通顺度检测方法包括以下步骤:
步骤S10,获取待检测文本,将所述待检测文本依次进行分词和词性分析,得到所述待检测文本对应的词性信息;
本发明所提出的文本通顺度检测方法应用于一种系统架构,该系统架构包括预处理模块、词向量模型、双向转换编码模型以及神经网络分类器,其中,预处理模块用于对文本进行预处理操作,预处理操作包括分词操作和词性分析操作,即对文本进行分词以及词性分析;词向量模型用于执行关系分析操作,即对其输入的文本进行分析上下文之间的关联关系;双向转换编码模型用于对其输入的词语执行语义分析操作,即分析句子中词语的含义;神经网络分类器用于对其输入的信息执行分类预测操作,以基于分类预测操作判断其输入信息是否通顺。
在本实施例中,在对待检测文本进行文本通顺度检测的过程,通过文本通顺度检测方法对应的预处理模块,先对待检测文本进行分词,得到待检测文本对应的待检测词集,从而对待检测文本中的各个句子执行分词操作,也就是将待检测文本中的各个句子切分成一个一个的词语,如对“亲爱的,我来自荒野”分词后得到“亲爱的/我/来自/荒野”四个词语;之后再对待检测文本对应的待检测词集进行词性分析,得到待检测词集对应的词性信息,以对待检测词集中的各个词语进行分析其词性,分析词语的语法特征,即分析词语所具有的语法功能,如可以分析得到分词或者量词或者形容词等等。其中,词性信息为待检测文本中各个词语的语法特征,一个词语对应于一种词性分析结果,即待检测文本中的词语与词性信息一一对应。
步骤S20,基于所述待检测文本对应的词性信息,确定所述待检测文本中词语的词性关联信息,以及基于所述待检测文本,确定所述待检测文本中词语的语义信息;
在本实施例中,得到待检测文本对应的词性信息后,将待检测文本输入至词向量模型中,以使词向量模型基于待检测文本的词性信息,对待检测文本的各个词语分析词语的关联关系,得到待检测文本中词语的词性关联信息。并且将未经预处理的待检测文本直接输入至双向转换编码模型中,以使双向转换编码模型对待检测文本中的词语以及句子的语义信息,即分析待检测文本中词语以及句子的含义。
需要说明的是,对待检测文本中的词语进行分析词性信息,为分析待检测文本中各词语的语法信息,对待检测文本中词语和句子的语义信息,为分析待检测文本中词语的词语含义和句子的句子含义;确定待检测文本中词语的词性关联信息以及确定待检测文本中词语的语义信息的执行顺序不作限制,可以先确定待检测文本中词语的词性关联信息后确定待检测文本中词语的语义信息,也可以先确定待检测文本中词语的语义信息后确定待检测文本中词语的词性关联信息,二者亦可同时进行。
步骤S30,融合所述待检测文本对应的所述词性关联信息和所述语义信息,得到所述待检测文本对应的句子特征信息;
在本实施例中,在得到待检测文本中各词语的词性关联信息以及待检测文本中句子和词语的语义信息之后,对待检测文本的各个句子,一一对应地将各个句子对应的词性关联信息和语义信息进行拼接,即对待检测文本的各个句子,一一对应地将各个句子对应的词性关联信息和语义信息进行融合,最终得到待检测文本中各个句子对应的句子特征信息。其中,各个句子的句子特征信息包括各个句子所包含的词性关联信息和各个句子所包含的语义信息,可以理解的是,句子特征信息包含句子的词语关联关系以及句子含义。
步骤S40,将所述句子特征信息输入至预存的神经网络分类器,以对所述待检测文本进行通顺度预测,得到所述待检测文本的文本通顺度结果。
在本实施例中,在得到待检测文本对应的句子特征信息之后,将句子特征信息输入至预存的神经网络分类器中,以使神经网络分类器基于输入的句子特征信息,对待检测文本中的各个句子进行文本通顺度的预测,从而对待检测文本中各个句子的语句通顺度进行判断,输出待检测文本中各个句子的语句通顺度结果,得到待检测文本的文本通顺度结果。其中,待检测文本的文本通顺度结果包含待检测本文中各个句子的语句通顺度结果,语句通顺度结果包含语句通顺或者语句不通顺,神经网络分类器为预先训练完成的,神经网络分类器可以是多个神经网络分类器,包括但不限于Softmax网络、CNN或LSTM网络等,神经网络分类器在本实施例中不做具体限定。
进一步地,所述将所述句子特征信息输入至预存的神经网络分类器,以对所述待检测文本进行通顺度预测,得到所述待检测文本的文本通顺度结果的步骤包括:
步骤S41,将所述句子特征信息输入至预存的不同神经网络分类器,以基于不同神经网络分类器对应的各个预测模型对所述待检测文本进行预测,得到所述待检测文本对应的各个概率预测值;
步骤S42,融合处理所述各个概率预测值,得到所述待检测文本的文本通顺度结果。
在本实施例中,在得到句子特征信息后,将句子特征信息分别输入至不同的神经网络分类器中进行预测,得到同一待检测文本对应的各个概率预测值,其中,待检测文本可以包括一个或者多个句子,一个句子对应多个概率预测值,从而基于该句子对应的多个概率预测值确定该句子的文本通顺度。需要说明的是,预先训练有多个神经网络分类器,该不同神经网络分类器中的预测模型不同,具体地,可以是通过2个神经网络分类器对应的2个预测模型,即采用2个预测模型融合方式基于句子特征信息对待检测文本进行预测,得到待检测文本对应的各个概率预测值,融合处理各个概率预测值,由于通过多个预测模型,因而能够消除模型之间的偶然性,可以进一步提升检测精确度与准确度。在得到各个概率预测值后,通过该各个概率预测值,即可得到待检测文本中各句子的文本通顺度结果。
进一步地,所述融合处理所述各个概率预测值,得到所述待检测文本的句子通顺度结果的步骤包括:
步骤S421,平均处理所述各个概率预测值,得到所述待检测文本对应的目标概率预测值;
步骤S422,将所述目标概率预测值与预存阀值进行比较,并得到比较结果,基于该比较结果,得到所述待检测文本的文本通顺度结果。
在本实施例中,在得到待检测文本对应得到多个概率预测值后,对该多个概率预测值进行平均处理,并将平均处理后的概率预测值作为待检测文本的目标概率预测值,在得到目标概率预测值后,获取预存阀值,将目标概率预测值与预存阀值进行比较,得到比较结果,需要说明的是,预存阀值是可以调整的。在得到比较结果,基于该比较结果,即可得到待检测文本的文本通顺度结果,该文本通顺度结果包括语句通顺或语句不通顺。
需要说明的是,在得到目标概率预测值后,可以对目标概率预测值进行输出处理,并生成目标提示信息,该目标提示信息对应提示方式并不做具体限定。
本实施例提出的文本通顺度检测方法,通过获取待检测文本,将所述待检测文本依次进行分词和词性分析,得到所述待检测文本对应的词性信息;然后,基于所述待检测文本对应的词性信息,确定所述待检测文本中词语的词性关联信息,以及基于所述待检测文本,确定所述待检测文本中词语的语义信息;接着,融合所述待检测文本对应的词性关联信息和所述语义信息,得到所述待检测文本对应的句子特征信息;最后,将所述句子特征信息输入至预存的神经网络分类器,以对所述待检测文本进行通顺度预测,得到所述待检测文本的文本通顺度结果。在本实施中,在判断文本通顺度时,分析待检测文本中各词语的词性关联关系得到待检测文本对应的词性关联信息,以及分析待检测文本中各句子的句子含义得到待检测文本对应的语义层面的信息,之后基于待检测文本各句子的词性关联信息和语义信息提取得到待检测文本的句子特征信息,通过同时使用词性关联信息以及语义信息,更加全面的对句子特征进行提取,以供后续可以基于神经网络分类器更全面的对句子是否通顺进行判断,使得文本通顺度检测结果更可靠准确,从而解决了现有的文本通顺度检测技术精度较低的技术问题,提升了文本通顺度的检测精度。
基于第一实施例,提出本发明文本通顺度检测方法的第二实施例,参照图3,在本实施例中,步骤S20包括:
步骤S21,将所述待检测文本对应的词性信息输入至词向量模型中,确定所述待检测文本中词语的词性关联信息;
步骤S22,将所述待检测文本输入至双向转换编码模型,输出所述待检测文本中词语的语义信息。
在本实施例中,得到待检测文本对应的词性信息后,将待检测文本输入至词向量模型中,以使词向量模型基于待检测文本的词性信息,对待检测文本的各个词语分析词语的关联关系,得到待检测文本中词语的词性关联信息。之后,再将未经预处理的待检测文本直接输入至双向转换编码模型中,以使双向转换编码模型对待检测文本中的词语以及句子的语义信息,即分析待检测文本中词语以及句子的含义。
进一步地,词向量模型为word2vec模型,且词向量模型为基于通顺度语料集预先训练完成的word2vec模型;双向转换编码模型为Bert模型,且双向转换编码模型也是基于通顺度语料集预先训练完成的Bert模型。词向量模型的网络结构包括输入层、隐藏层和输出层,输入层的各个输出层神经元分别与隐藏层的各个隐藏层神经元相连接,隐藏层的各个隐藏层神经元与输出层的输出层神经元相连接,其中,输出层只有一个输出层神经元,即输出层只有一个输出。具体地,将待检测文本中的上下文词语对应的词性信息输入至词向量模型的输入层,以基于输入层权重值和上下文词语对应的词性信息计算得到第一中间结果;词向量模型的输入层向隐藏层输出第一中间结果,隐藏层基于第一中间结果和隐藏层权重值计算得到第二中间结果,隐藏层向输出层输出第二中间结果,输入层基于预设激活函数和第二中间结果计算得到待检测文本中词语的词性关联信息。
进一步地,所述将所述待检测文本对应的词性信息输入至词向量模型中,确定所述待检测文本中词语的词性关联信息的步骤之前,还包括:
步骤S211,在通顺度语料库中获取通顺度语料集,对所述通顺度语料集进行分词处理,得到所述通顺度语料集对应的通顺度词集;
步骤S212,对所述通顺度词集进行词性分析,得到所述通顺度词集对应的词性信息集;
步骤S213,将所述词性信息集输入至初始词向量模型进行训练,得到训练所述初始词向量模型完成时对应的所述词向量模型。
在本实施例中,在得到词向量模型之前,需要对未经训练的词向量模型对应的初始词向量模型进行训练。具体地,获取通顺度语料库中预存的通顺度语料集,然后对通顺度语料集进行分词,即对通顺度语料集中的各个句子进行分词,从而得到通顺度语料集对应的通顺度词集,也就是将通顺度语料集中的各个句子切分成一个一个的词语;之后,再对通顺度语料集对应的通顺度词集进行词性分析,得到通顺度语料集对应的词性信息集,以对通顺度词集中的各个词语进行分析词语的语法特征,即分析词语所具有的语法功能,如可以分析得到分词或者量词或者形容词等等。得到通顺度语料集对应的词性信息集之后,将词性信息集输入至初始词向量模型中,以对初始词向量模型进行训练,当训练初始词向量模型完成时得到词向量模型。
进一步地,所述在通顺度语料库中获取通顺度语料集,对所述通顺度语料集进行分词处理,得到所述通顺度语料集对应的通顺度词集的步骤之前,还包括:
步骤S2111,获取通顺语料,并对所述通顺语料中的句子执行插入词语操作和/或删除词语操作和/或语序颠倒操作,得到不通顺语料;
步骤S2112,基于所述通顺度语料和所述不通顺语料构建所述通顺度语料库,其中,所述通顺度语料库中的通顺度语料集包括所述通顺语料以及所述不通顺语料。
在本实施例中,可以从外部网站或者搜索引擎或者互联网中收集通顺语料,得到通顺语料之后,基于通顺语料确定不通顺语料,可以对通顺语料执行插入词语操作和/或删除词语操作和/或语序颠倒操作,以此来获得不通顺语料。对通顺语料执行插入词语操作,即在通顺语料对应的通顺句子中随机插入随机词语;对通顺语料执行删除词语操作,即在通顺语料对应的通顺句子中随机删除一定数量的词语;对通顺语料执行语序颠倒操作,即随机调换通顺语料对应的通顺句子中词语的顺序。因此,对通顺语料执行插入词语操作、删除词语操作和语序颠倒操作其中的至少一项操作,以此构造不通顺语料。得到不通顺语料之后,将通顺语料和不通顺语料存储至预设的数据库中,得到通顺度语料库。进一步地,可以定期地从外部数据库或者外部服务器中获取语料,以随时更新通顺度语料库,增加通顺度语料库的语料多样性,复杂通顺度语料库中的文本场景。
进一步地,所述基于所述待检测文本,确定所述待检测文本中词语的语义信息的步骤包括:
步骤S23,确定所述待检测文本中的目标词语以及确定所述待检测文本中所述目标词语对应的上下文词语;
步骤S24,基于所述目标词语对应的目标词向量以及所述上下文词语对应的上下文词向量,计算所述目标词语和所述上下文词语的相似度权重;
步骤S25,基于所述相似度权重和所述目标词语,确定所述待检测文本中词语的语义信息。
在本实施例中,将未经预处理的待检测文本直接输入至双向转换编码模型中,以使双向转换编码模型对待检测文本中的词语以及句子的语义信息,即分析待检测文本中词语以及句子的含义。具体地,将未经预处理的待检测文本直接输入至双向转换编码模型中,首先按照顺序确定待检测文本中的一个词语为目标词语,将待检测文本除目标词语之外的词语作为上下文词语;之后,在目标词语对应的目标词向量与上下文词语对应的上下文词向量所处的同一向量空间中,计算目标词语对应的目标词向量以及上下文词语对应的上下文词向量之间的相似度权重,可以理解的是,目标词语对应的目标词向量与上下文词语对应的上下文词向量之间的距离越远,则目标词语与上下文词语之间的相似度权重越小;目标词语对应的目标词向量与上下文词语对应的上下文词向量之间的距离越近,则目标词语与上下文词语之间的相似度权重越大。基于上下文词语对应的相似度权重,计算目标词语对应的语义信息之后,对于待检测文本中的其他词语,将待检测文本中的其他词语作为目标词语,同样对其他词语执行所述确定所述待检测文本中的目标词语以及确定所述待检测文本中所述目标词语对应的上下文词语的步骤,直至计算得到待检测文本中所有词语的语义信息。
本实施例提出的文本通顺度检测方法,通过将所述待检测文本对应的词性信息输入至词向量模型中,确定所述待检测文本中词语的词性关联信息;将所述待检测文本输入至双向转换编码模型,输出所述待检测文本中词语的语义信息。在本实施例中,在判断文本通顺度时,分析待检测文本中各词语的词性关联关系得到待检测文本对应的词性关联信息,并且分析待检测文本中各句子的句子含义得到待检测文本对应的语义层面的信息,以供基于词性关联信息和语义信息更全面的对句子是否通顺进行判断,使得文本通顺度检测结果更可靠准确,是后续提升文本通顺度的检测精度的前提手段。
此外,本发明实施例还提出一种文本通顺度检测装置,该文本通顺度检测装置包括:
获取模块,用于获取待检测文本,将所述待检测文本依次进行分词和词性分析,得到所述待检测文本对应的词性信息;
确定模块,用于基于所述待检测文本对应的词性信息,确定所述待检测文本中词语的词性关联信息,以及基于所述待检测文本,确定所述待检测文本中词语的语义信息;
融合模块,用于融合所述待检测文本对应的所述词性关联信息和所述语义信息,得到所述待检测文本对应的句子特征信息;
预测模块,用于将所述句子特征信息输入至预存的神经网络分类器,以对所述待检测文本进行通顺度预测,得到所述待检测文本的文本通顺度结果。
进一步地,所述确定模块,还用于:
将所述待检测文本对应的词性信息输入至词向量模型中,确定所述待检测文本中词语的词性关联信息;
将所述待检测文本输入至双向转换编码模型,输出所述待检测文本中词语的语义信息。
进一步地,所述确定模块,还用于:
在通顺度语料库中获取通顺度语料集,对所述通顺度语料集进行分词处理,得到所述通顺度语料集对应的通顺度词集;
对所述通顺度词集进行词性分析,得到所述通顺度词集对应的词性信息集;
将所述词性信息集输入至初始词向量模型进行训练,得到训练所述初始词向量模型完成时对应的所述词向量模型。
进一步地,所述确定模块,还用于:
获取通顺语料,并对所述通顺语料中的句子执行插入词语操作和/或删除词语操作和/或语序颠倒操作,得到不通顺语料;
基于所述通顺度语料和所述不通顺语料构建所述通顺度语料库,其中,所述通顺度语料库中的通顺度语料集包括所述通顺语料以及所述不通顺语料。
进一步地,所述预测模块,还用于:
将所述句子特征信息输入至预存的不同神经网络分类器,以基于不同神经网络分类器对应的各个预测模型对所述待检测文本进行预测,得到所述待检测文本对应的各个概率预测值;
融合处理所述各个概率预测值,得到所述待检测文本的文本通顺度结果。
进一步地,所述预测模块,还用于:
平均处理所述各个概率预测值,得到所述待检测文本对应的目标概率预测值;
将所述目标概率预测值与预存阀值进行比较,并得到比较结果,基于该比较结果,得到所述待检测文本的文本通顺度结果。
进一步地,所述确定模块,还用于:
确定所述待检测文本中的目标词语以及确定所述待检测文本中所述目标词语对应的上下文词语;
基于所述目标词语对应的目标词向量以及所述上下文词语对应的上下文词向量,计算所述目标词语和所述上下文词语的相似度权重;
基于所述相似度权重和所述目标词语,确定所述待检测文本中词语的语义信息。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有文本通顺度检测程序,所述文本通顺度检测程序被处理器执行时实现如上述中任一项所述的文本通顺度检测方法的步骤。
本发明计算机可读存储介质具体实施例与上述文本通顺度检测方法的各实施例基本相同,在此不再详细赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种文本通顺度检测方法,其特征在于,所述文本通顺度检测方法包括以下步骤:
获取待检测文本,将所述待检测文本依次进行分词和词性分析,得到所述待检测文本对应的词性信息;
基于所述待检测文本对应的词性信息,确定所述待检测文本中词语的词性关联信息,以及基于所述待检测文本,确定所述待检测文本中词语的语义信息;
融合所述待检测文本对应的所述词性关联信息和所述语义信息,得到所述待检测文本对应的句子特征信息;
将所述句子特征信息输入至预存的神经网络分类器,以对所述待检测文本进行通顺度预测,得到所述待检测文本的文本通顺度结果。
2.如权利要求1所述的文本通顺度检测方法,其特征在于,所述基于所述待检测文本对应的词性信息,确定所述待检测文本中词语的词性关联信息,以及基于所述待检测文本,确定所述待检测文本中词语的语义信息的步骤包括:
将所述待检测文本对应的词性信息输入至词向量模型中,确定所述待检测文本中词语的词性关联信息;
将所述待检测文本输入至双向转换编码模型,输出所述待检测文本中词语的语义信息。
3.如权利要求2所述的文本通顺度检测方法,其特征在于,所述将所述待检测文本对应的词性信息输入至词向量模型中,确定所述待检测文本中词语的词性关联信息的步骤之前,还包括:
在通顺度语料库中获取通顺度语料集,对所述通顺度语料集进行分词处理,得到所述通顺度语料集对应的通顺度词集;
对所述通顺度词集进行词性分析,得到所述通顺度词集对应的词性信息集;
将所述词性信息集输入至初始词向量模型进行训练,得到训练所述初始词向量模型完成时对应的所述词向量模型。
4.如权利要求3所述的文本通顺度检测方法,其特征在于,所述在通顺度语料库中获取通顺度语料集,对所述通顺度语料集进行分词处理,得到所述通顺度语料集对应的通顺度词集的步骤之前,还包括:
获取通顺语料,并对所述通顺语料中的句子执行插入词语操作和/或删除词语操作和/或语序颠倒操作,得到不通顺语料;
基于所述通顺度语料和所述不通顺语料构建所述通顺度语料库,其中,所述通顺度语料库中的通顺度语料集包括所述通顺语料以及所述不通顺语料。
5.如权利要求1所述的文本通顺度检测方法,其特征在于,所述将所述句子特征信息输入至预存的神经网络分类器,以对所述待检测文本进行通顺度预测,得到所述待检测文本的文本通顺度结果的步骤包括:
将所述句子特征信息输入至预存的不同神经网络分类器,以基于不同神经网络分类器对应的各个预测模型对所述待检测文本进行预测,得到所述待检测文本对应的各个概率预测值;
融合处理所述各个概率预测值,得到所述待检测文本的文本通顺度结果。
6.如权利要求5所述的文本通顺度检测方法,其特征在于,所述融合处理所述各个概率预测值,得到所述待检测文本的文本通顺度结果的步骤包括:
平均处理所述各个概率预测值,得到所述待检测文本对应的目标概率预测值;
将所述目标概率预测值与预存阀值进行比较,并得到比较结果,基于该比较结果,得到所述待检测文本的文本通顺度结果。
7.如权利要求1至6任一项所述的文本通顺度检测方法,其特征在于,所述基于所述待检测文本,确定所述待检测文本中词语的语义信息的步骤包括:
确定所述待检测文本中的目标词语以及确定所述待检测文本中所述目标词语对应的上下文词语;
基于所述目标词语对应的目标词向量以及所述上下文词语对应的上下文词向量,计算所述目标词语和所述上下文词语的相似度权重;
基于所述相似度权重和所述目标词语,确定所述待检测文本中词语的语义信息。
8.一种文本通顺度检测装置,其特征在于,所述文本通顺度检测装置包括:
获取模块,用于获取待检测文本,将所述待检测文本依次进行分词和词性分析,得到所述待检测文本对应的词性信息;
确定模块,用于基于所述待检测文本对应的词性信息,确定所述待检测文本中词语的词性关联信息,以及基于所述待检测文本,确定所述待检测文本中词语的语义信息;
融合模块,用于融合所述待检测文本对应的所述词性关联信息和所述语义信息,得到所述待检测文本对应的句子特征信息;
预测模块,用于将所述句子特征信息输入至预存的神经网络分类器,以对所述待检测文本进行通顺度预测,得到所述待检测文本的文本通顺度结果。
9.一种文本通顺度检测设备,其特征在于,所述文本通顺度检测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本通顺度检测程序,所述文本通顺度检测程序被所述处理器执行时实现如权利要求1至7中任一项所述的文本通顺度检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文本通顺度检测程序,所述文本通顺度检测程序被处理器执行时实现如权利要求1至7中任一项所述的文本通顺度检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011249740.0A CN112329433A (zh) | 2020-11-10 | 2020-11-10 | 文本通顺度检测方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011249740.0A CN112329433A (zh) | 2020-11-10 | 2020-11-10 | 文本通顺度检测方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112329433A true CN112329433A (zh) | 2021-02-05 |
Family
ID=74318884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011249740.0A Pending CN112329433A (zh) | 2020-11-10 | 2020-11-10 | 文本通顺度检测方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329433A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111639A (zh) * | 2021-04-16 | 2021-07-13 | 南京奥拓电子科技有限公司 | 一种通顺模型训练方法及辅助语音识别方法 |
CN113691732A (zh) * | 2021-09-07 | 2021-11-23 | 联想(北京)有限公司 | 相机自动对焦方法、装置、电子设备及存储介质 |
CN114298012A (zh) * | 2021-12-31 | 2022-04-08 | 中国电子科技集团公司电子科学研究院 | 生成长文本科技情报模型的优化方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826329A (zh) * | 2019-11-13 | 2020-02-21 | 创意信息技术股份有限公司 | 一种基于困惑度的自动作文评分方法 |
CN111581392A (zh) * | 2020-04-28 | 2020-08-25 | 电子科技大学 | 一种基于语句通顺度的自动作文评分计算方法 |
-
2020
- 2020-11-10 CN CN202011249740.0A patent/CN112329433A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826329A (zh) * | 2019-11-13 | 2020-02-21 | 创意信息技术股份有限公司 | 一种基于困惑度的自动作文评分方法 |
CN111581392A (zh) * | 2020-04-28 | 2020-08-25 | 电子科技大学 | 一种基于语句通顺度的自动作文评分计算方法 |
Non-Patent Citations (2)
Title |
---|
何天文等: "基于语义语法分析的中文语句困惑度评价", 《计算机应用研究》, vol. 34, no. 12, 31 December 2017 (2017-12-31), pages 3538 - 3546 * |
崔建鹏: "自动作文评分的关键技术研究", 中国优秀硕士学位论文全文数据库 信息科技辑 (月刊) 》, 15 July 2020 (2020-07-15), pages 138 - 1481 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111639A (zh) * | 2021-04-16 | 2021-07-13 | 南京奥拓电子科技有限公司 | 一种通顺模型训练方法及辅助语音识别方法 |
CN113691732A (zh) * | 2021-09-07 | 2021-11-23 | 联想(北京)有限公司 | 相机自动对焦方法、装置、电子设备及存储介质 |
CN113691732B (zh) * | 2021-09-07 | 2022-11-22 | 联想(北京)有限公司 | 相机自动对焦方法、装置、电子设备及存储介质 |
CN114298012A (zh) * | 2021-12-31 | 2022-04-08 | 中国电子科技集团公司电子科学研究院 | 生成长文本科技情报模型的优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109471945B (zh) | 基于深度学习的医疗文本分类方法、装置及存储介质 | |
US10991366B2 (en) | Method of processing dialogue query priority based on dialog act information dependent on number of empty slots of the query | |
JP7031101B2 (ja) | 方法、システムおよび有形コンピュータ可読デバイス | |
CN108846077B (zh) | 问答文本的语义匹配方法、装置、介质及电子设备 | |
US11482212B2 (en) | Electronic device for analyzing meaning of speech, and operation method therefor | |
US20210201143A1 (en) | Computing device and method of classifying category of data | |
US9396724B2 (en) | Method and apparatus for building a language model | |
CN111221939B (zh) | 评分方法、装置和电子设备 | |
US11861886B2 (en) | Method and apparatus for generating video description information, and method and apparatus for video processing | |
CN108595629B (zh) | 用于答案选择系统的数据处理方法及应用 | |
CN112329433A (zh) | 文本通顺度检测方法、装置、设备及计算机可读存储介质 | |
CN113869044A (zh) | 关键词自动提取方法、装置、设备及存储介质 | |
WO2014190732A1 (en) | Method and apparatus for building a language model | |
US11756094B2 (en) | Method and device for evaluating comment quality, and computer readable storage medium | |
CN116560513B (zh) | 基于情绪识别的ai数字人交互方法、装置及系统 | |
CN108628868B (zh) | 文本分类方法和装置 | |
CN110222168B (zh) | 一种数据处理的方法及相关装置 | |
CN112307770A (zh) | 敏感信息的检测方法、装置、电子设备及存储介质 | |
Çakır et al. | Multi-task regularization based on infrequent classes for audio captioning | |
CN113505193A (zh) | 一种数据处理方法及相关设备 | |
CN113392640A (zh) | 一种标题确定方法、装置、设备及存储介质 | |
CN110750983A (zh) | 语料识别方法、装置、设备及计算机可读存储介质 | |
CN114817478A (zh) | 基于文本的问答方法、装置、计算机设备及存储介质 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN111460811A (zh) | 众包任务的答案验证方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |