CN110232117B - 句子流畅度检测方法、装置以及终端 - Google Patents

句子流畅度检测方法、装置以及终端 Download PDF

Info

Publication number
CN110232117B
CN110232117B CN201910514989.0A CN201910514989A CN110232117B CN 110232117 B CN110232117 B CN 110232117B CN 201910514989 A CN201910514989 A CN 201910514989A CN 110232117 B CN110232117 B CN 110232117B
Authority
CN
China
Prior art keywords
word
sentence
fluency
words
relative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910514989.0A
Other languages
English (en)
Other versions
CN110232117A (zh
Inventor
鲍思琪
何煌
王凡
吴华
何径舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910514989.0A priority Critical patent/CN110232117B/zh
Publication of CN110232117A publication Critical patent/CN110232117A/zh
Application granted granted Critical
Publication of CN110232117B publication Critical patent/CN110232117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提出一种句子流畅度检测方法、装置以及终端,所述方法包括:计算句子中的每个单词相对于剩余单词的条件概率,以及每个单词的先验概率;根据每个单词相对于剩余单词的条件概率和每个单词的先验概率,计算每个单词相对于剩余单词之间的相关性得分;比较所有的每个单词相对于剩余单词之间的相关性得分,将最小相关性得分作为句子流畅度。不仅能够综合每个单词的前向和后向的信息,还能够区分搭配不当的单词和含有信息量的低频单词,使得句子流畅度检测更准确,效率更高。

Description

句子流畅度检测方法、装置以及终端
技术领域
本发明涉及机器对话技术领域,尤其涉及一种句子流畅度检测方法、装置以及终端。
背景技术
在机器翻译、文本摘要、对话系统等领域,越来越多的回复语句生成模型开始出现。在对话系统中,传统的产生回复语句的方法是基于检索系统,召回一个相似回复。而近期提出产生回复的方法是,基于顺序到顺序的模型(Seq2Seq,Sequence to Sequence)或其改进的模型生成回复。但是,这些生成模型产生的回复,有时候句子不够通顺自然。目前,对于句子流畅度的判断没有统一的标准。常用的指标是基于单向语言模型(LM,LanguageModel)计算句子的平均生成概率,作为流畅度评估指标。但这种方法对流畅度的评估并不准确。所以,由于缺乏有效的流畅度评估指标,不利于回复语句生成模型的改进。
发明内容
本发明实施例提供一种句子流畅度检测方法、装置以及终端,以解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种句子流畅度检测方法,包括:
计算句子中的每个单词相对于剩余单词的条件概率,以及所述每个单词的先验概率;
根据所述每个单词相对于剩余单词的条件概率和所述每个单词的先验概率,计算所述每个单词相对于剩余单词之间的相关性得分;
比较所有的所述每个单词相对于剩余单词之间的相关性得分,将最小相关性得分作为句子流畅度。
在一种实施方式中,计算句子中的每个单词相对于剩余单词的条件概率,包括:
从所述句子中选取任一单词wi,对单词wi的前向内容和后向内容分别进行编码,得到前向内容向量和后向内容向量;
将所述前向内容向量和所述后向内容向量进行拼接,得到拼接向量;
根据所述拼接向量,得到单词wi相对于剩余单词W_i的条件概率p(wi|W_i)。
在一种实施方式中,根据所述每个单词相对于剩余单词的条件概率和所述每个单词的先验概率,计算所述每个单词相对于剩余单词之间的相关性得分,包括:
根据单词wi相对于剩余单词W_i的条件概率p(wi|W_i)和单词wi的先验概率p(wi),计算单词wi相对于剩余单词W_i之间的相关性得分PMI,计算公式为:
Figure BDA0002094009220000021
在一种实施方式中,还包括:
在所述句子流畅度小于正常流畅度的情况下,所述句子流畅度对应的最小相关性得分的单词为搭配不当词。
第二方面,本发明实施例提供了一种句子流畅度检测装置,包括:
概率计算模块,用于计算句子中的每个单词相对于剩余单词的条件概率,以及所述每个单词的先验概率;
相关性得分计算模块,用于根据所述每个单词相对于剩余单词的条件概率和所述每个单词的先验概率,计算所述每个单词相对于剩余单词之间的相关性得分;
句子流畅度计算模块,用于比较所有的所述每个单词相对于剩余单词之间的相关性得分,将最小相关性得分作为句子流畅度。
在一种实施方式中,所述概率计算模块包括:
前后向内容向量获取单元,用于从所述句子中选取任一单词wi,对单词wi的前向内容和后向内容分别进行编码,得到前向内容向量和后向内容向量;
前后向内容向量拼接单元,用于将所述前向内容向量和所述后向内容向量进行拼接,得到拼接向量;
条件概率计算单元,用于根据所述拼接向量,得到单词wi相对于剩余单词W_i的条件概率p(wi|W_i);
先验概率计算单元,用于计算所述每个单词对应的先验概率。
在一种实施方式中,所述相关性得分计算模块包括:
相关性得分计算单元,用于根据单词wi相对于剩余单词W_i的条件概率p(wi|W_i)和单词wi的先验概率p(wi),计算单词wi相对于剩余单词W_i之间的相关性得分PMI,计算公式为:
Figure BDA0002094009220000031
在一种实施方式中,还包括:
搭配不当词提取模块,用于在所述句子流畅度小于正常流畅度的情况下,所述句子流畅度对应的最小相关性得分的单词为搭配不当词。
第三方面,本发明实施例提供了一种句子流畅度检测终端,所述句子流畅度检测终端的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,所述句子流畅度检测终端的结构中包括处理器和存储器,所述存储器用于存储支持所述句子流畅度检测终端执行上述句子流畅度检测方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述句子流畅度检测终端还可以包括通信接口,用于与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储句子流畅度检测终端所用的计算机软件指令,其包括用于执行上述句子流畅度检测方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:提出一种句子流畅度检测方法,由于计算每个单词相对于剩余单词之间的相关性得分时,综合每个单词的前向和后向的信息,使得句子流畅度检测更准确,效率更高。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出根据本发明实施例的一种句子流畅度检测方法的流程图。
图2示出根据本发明实施例的另一种句子流畅度检测方法的流程图。
图3示出根据本发明实施例的句子中前后内容编码示意图。
图4示出根据本发明实施例的正常句子的流畅度计算结果示意图。
图5示出根据本发明实施例的单复数搭配不当句子的流畅度计算结果示意图。
图6示出根据本发明实施例的冠词搭配不当句子的流畅度计算结果示意图。
图7示出根据本发明实施例的短语搭配不当句子的流畅度以及含有信息量的低频词句子的流畅度计算结果示意图。
图8示出根据本发明实施例的一种句子流畅度检测装置的结构框图。
图9示出根据本发明实施例的另一种句子流畅度检测方法的结构框图。
图10示出根据本发明实施例的一种句子流畅度检测终端的结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
单向LM计算一个句子W={w1,w2,w3......wn}每个词的生成概率pi,得到整个句子的流畅度打分:
Figure BDA0002094009220000041
其中,N是句子W中的单词数量。单向LM的打分S(W)越高,表示生成的语句越通顺、自然。但是在实际场景,直接应用单向LM会存在一些问题。单向LM对一些经常出现的句子或短语打分很高,比如“I am doing well”,“I like to...”。在评估中,如果一味的提升单向LM的打分,会使得生成的句子形式极其类似,大多由常见的句子或短语组成。因此,在句子级别计算单向LM得分,并不能得到有信息量、搭配得当的高质量回复。
本发明提出一种句子流畅度检测方法,不仅能够综合每个单词的前向和后向的信息,还能够区分搭配不当的单词和含有信息量的单词,使得句子流畅度检测更准确,效率更高。
实施例一
在一种具体实施方式中,如图1所示,提供了一种句子流畅度检测方法,包括:
步骤S10:计算句子中的每个单词相对于剩余单词的条件概率,以及每个单词的先验概率。
在一种示例中,在句子中任选一个单词,剩下的就是相对于已选单词的剩余单词。根据句子中已选单词的生成概率和相对于已选单词的剩余单词的生成概率,计算已选单词相对于剩余单词的条件概率。同样的计算方式,计算每个单词相对于剩余单词的条件概率。对于搭配不当的单词或者低频单词,生成概率较小,导致条件概率较小。可以进一步引入每个单词的先验概率。先验概率是指在大规模语料中,一个单词的出现频率。由于在计算条件概率时,考虑到了每个单词的前向内容和后向内容,提高了每个单词的条件概率计算准确率。
步骤S20:根据每个单词相对于剩余单词的条件概率和每个单词的先验概率,计算每个单词相对于剩余单词之间的相关性得分。
在一种示例中,可以基于互信息(Pointwise Mutual Information,PMI)计算每个单词相对于剩余单词之间的相关性得分。在y单词(可以看作选中的单词)出现的情况下x单词(可以看作除选中的单词之外剩余的某一单词)出现的条件概率除以x单词本身出现的概率,表示x单词跟y单词的相关程度。基于信息论,可以对表示x单词跟y单词的相关程度做进一步log计算,将概率转换为信息量。相关性得分能够衡量两个单词之间的相关性,即一个单词中包含的关于另一个单词的信息量。
步骤S30:比较所有的每个单词相对于剩余单词之间的相关性得分,将最小相关性得分作为句子流畅度。
在一种示例中,可以在单词级别,计算每个单词相对于剩余单词之间的相关性得分。取句子中相关性得分最小值,作为句子流畅度的评估指标。由于计算每个单词相对于剩余单词之间的相关性得分时,综合每个单词的前向和后向的信息,使得句子流畅度检测更准确,效率更高。
在一种实施方式中,如图2所示,步骤S10中,计算句子中的每个单词相对于剩余单词的条件概率,包括:
步骤S101:从句子中选取任一单词wi,对单词wi的前向内容和后向内容分别进行编码,得到前向内容向量和后向内容向量;
步骤S102:将前向内容向量和后向内容向量进行拼接,得到拼接向量;
步骤S103:根据拼接向量,得到单词wi相对于剩余单词W_i的条件概率p(wi|W_i)。
在一种示例中,如图3所示,从句子中选取任一单词wi,i可以表示句子中单词的序号。对单词wi的前向内容和后向内容分别进行编码,得到前向内容向量和后向内容向量。例如,句子“I have a cat named kitty”,在计算单词“cat”的条件概率p(wi|W_i)时,前向编码覆盖了“I have a”,形成前向内容向量,后向编码覆盖了“kitty named”,形成后向内容向量。两个编码拼接在一起,形成拼接向量。将拼接向量输入至神经网络层中,输出整合句子信息的向量。根据句子中“cat”的生成概率和相对于“cat”的剩余单词(整合句子信息的向量)的生成概率,计算“cat”相对于剩余单词的条件概率p(wi|W_i)。
步骤S104:计算每个单词wi的先验概率p(wi)。
例如,“cat”单词在具有句子“I have a cat named kitty”的文章中的出现频率p(wi)。
在一种实施方式中,如图2所示,步骤S20包括:
步骤S201:根据单词wi相对于剩余单词W_i的条件概率p(w|W_i)和单词wi的先验概率p(wi),计算单词wi相对于剩余单词W_i之间的相关性得分PMI,计算公式为:
Figure BDA0002094009220000071
在一种示例中,对于可能含有信息量的低频词,出现的概率较小,即先验概率p(wi)通常较低。条件概率p(wi|W_i)除以先验概率p(wi)之后的值较高,
Figure BDA0002094009220000072
较高。对于搭配不当的单词,其PMI可能较低。所以,通过计算每个单词的PMI,可以将低频词和搭配不当的词区分出来。可以有效的进行句子流畅度的判断。
在一种实施方式中,如图2所示,还包括:
步骤S40:在句子流畅度小于正常流畅度的情况下,句子流畅度对应的最小相关性得分的单词为搭配不当词。
在一种示例中,将一个句子中的PMI的最小值作为句子流畅度,即
Figure BDA0002094009220000073
通过对正确的句子取最小PMI,得到正常流畅度,并将正常流畅度作为标准流畅度,以便于参考。在句子流畅度小于正常流畅度的情况下,句子流畅度对应的最小相关性得分的单词为搭配不当词。
以下给出几组句子计算得到最小PMI结果的分析:
如图4所示,示出了正常句子的句子流畅度计算结果。对于第一条正常的句子“hi,what are your hobbies?”,计算得到的min_pmi为2.7892。第二条正常的句子“hello,whatare your hobbies?”,计算得到的min_pmi为2.8575。第三条正常的句子“how are youtoday?”,计算得到的min_pmi为4.7628。第四条正常的句子“what do you do for aliving?”,计算得到的min_pmi为4.0715。对于正常的句子,其句子流畅度均大于0。
如图5所示,示出了单复数搭配不当句子的句子流畅度计算结果。用方框圈出的是单复数搭配不当的单词。对于第一条正常的句子“I like reading books.”,计算得到的min_pmi为3.2234。对于第一条单复数搭配不当的句子“I like reading book.”,计算得到的min_pmi为-0.8965。对于第二条单复数搭配不当的句子“I likes reading.”,计算得到的min_pmi为-0.0011。对于第三条单复数搭配不当的句子“I eat reading.”,计算得到的min_pmi为-1.3364。对于第四条单复数搭配不当的句子“I like reading.”,计算得到的min_pmi为-0.0289。单复数搭配不当的句子流畅度均小于正常句子的句子流畅度。
如图6所示,示出了冠词搭配不当句子的句子流畅度计算结果。用方框图出的是冠词搭配不当的单词。对于第一条正常的句子“I work with the cars.What about you”,计算得到的min_pmi为1.1264。对于第一条冠词搭配不当的句子“I work with thefather.What about you”,计算得到的min_pmi为-2.8330。对于第二条正常的句子“I workwith my father.What about you”,计算得到的min_pmi为3.2197。冠词搭配不当的句子流畅度小于正常句子的句子流畅度。
如图7所示,示出了短语搭配不当句子和含有信息量低频词的句子流畅度计算结果。用方框圈出的是短语搭配不当的单词和含有信息量低频词。对于第一条正常的句子“hi,how are you doing?i’m getting ready to do some exercise chasing to stayin shape.”,计算得到的min_pmi为2.7670。对于第一条出现低频词的句子“to stay inshape,I chase cheetahs at the zoo.”,计算得到的min_pmi为-0.4486。对于第二条短语搭配不当的句子“hi,how are you doing?i’m getting ready to do some cheetahchasing to stay in shape.”,计算得到的min_pmi为-7.5624。一般情况下,为了保持身材,不太可能去追猎豹(cheetah),do some exercise就比较正常。短语搭配不当的句子流畅度和低频词的句子流畅度小于正常句子的句子流畅度。低频词的句子流畅度大于短语搭配不当的句子流畅度。
实施例二
在另一种具体实施方式中,如图8所示,提供了一种句子流畅度检测装置,包括:
概率计算模块10,用于计算句子中的每个单词相对于剩余单词的条件概率,以及所述每个单词对应的先验概率;
相关性得分计算模块20,用于根据所述每个单词相对于剩余单词的条件概率和所述每个单词的先验概率,计算所述每个单词相对于剩余单词之间的相关性得分;
句子流畅度计算模块30,用于比较所有的所述每个单词相对于剩余单词之间的相关性得分,将最小相关性得分作为句子流畅度。
在一种实施方式中,如图9所示,所述概率计算模块10包括:
前后向内容向量获取单元101,用于从所述句子中选取任一单词wi,对单词wi的前向内容和后向内容分别进行编码,得到前向内容向量和后向内容向量;
前后向内容向量拼接单元102,用于将所述前向内容向量和所述后向内容向量进行拼接,得到拼接向量;
条件概率计算单元103,用于根据拼接向量,得到单词wi相对于剩余单词W_i的条件概率p(wi|W_i);
先验概率计算单元104,用于计算所述每个单词对应的先验概率。
在一种实施方式中,如图9所示,所述相关性得分计算模块20包括:
相关性得分计算单元201,用于根据单词wi相对于剩余单词W_i的条件概率p(wi|W_i)和单词wi的先验概率p(wi),计算单词wi相对于剩余单词W_i之间的相关性得分PMI,计算公式为:
Figure BDA0002094009220000091
在一种实施方式中,如图9所示,还包括:
搭配不当词提取模块40,用于在所述句子流畅度的绝对值小于正常流畅度的绝对值的情况下,所述句子流畅度对应的最小相关性得分的单词为搭配不当词。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
实施例三
图10示出根据本发明实施例的句子流畅度检测终端的结构框图。如图10所示,该终端包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的句子流畅度检测方法。所述存储器910和处理器920的数量可以为一个或多个。
该终端还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA,Extended IndustryStandardArchitecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述实施例中任一所述方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (9)

1.一种句子流畅度检测方法,其特征在于,包括:
计算句子中的每个单词相对于剩余单词的条件概率,以及所述每个单词的先验概率;
根据所述每个单词相对于剩余单词的条件概率和所述每个单词的先验概率,计算所述每个单词相对于剩余单词之间的相关性得分;
比较所有的所述每个单词相对于剩余单词之间的相关性得分,将最小相关性得分作为句子流畅度;
其中,计算句子中的每个单词相对于剩余单词的条件概率,包括:
从所述句子中选取任一单词wi,对单词wi的前向内容和后向内容分别进行编码,得到前向内容向量和后向内容向量;
将所述前向内容向量和所述后向内容向量进行拼接,得到拼接向量;
根据所述拼接向量,得到单词wi相对于剩余单词W-i的条件概率p(wi|W-i)。
2.根据权利要求1所述的方法,其特征在于,根据所述每个单词相对于剩余单词的条件概率和所述每个单词的先验概率,计算所述每个单词相对于剩余单词之间的相关性得分,包括:
根据单词wi相对于剩余单词W-i的条件概率p(wi|W-i)和单词wi的先验概率p(wi),计算单词wi相对于剩余单词W-i之间的相关性得分PMI,计算公式为:
Figure FDA0003074301200000011
3.根据权利要求1-2任一项所述的方法,其特征在于,还包括:
在所述句子流畅度小于正常流畅度的情况下,所述句子流畅度对应的最小相关性得分的单词为搭配不当词。
4.一种句子流畅度检测装置,其特征在于,包括:
概率计算模块,用于计算句子中的每个单词相对于剩余单词的条件概率,以及所述每个单词的先验概率;
相关性得分计算模块,用于根据所述每个单词相对于剩余单词的条件概率和所述每个单词的先验概率,计算所述每个单词相对于剩余单词之间的相关性得分;
句子流畅度计算模块,用于比较所有的所述每个单词相对于剩余单词之间的相关性得分,将最小相关性得分作为句子流畅度;
其中,所述概率计算模块包括:
前后向内容向量获取单元,用于从所述句子中选取任一单词wi,对单词wi的前向内容和后向内容分别进行编码,得到前向内容向量和后向内容向量;
前后向内容向量拼接单元,用于将所述前向内容向量和所述后向内容向量进行拼接,得到拼接向量;
条件概率计算单元,用于根据所述拼接向量,得到单词wi相对于剩余单词W-i的条件概率p(wi|W-i)。
5.根据权利要求4所述的装置,其特征在于其中,所述概率计算模块还包括:
先验概率计算单元,用于计算所述每个单词对应的先验概率。
6.根据权利要求4所述的装置,其特征在于,所述相关性得分计算模块包括:
相关性得分计算单元,用于根据单词wi相对于剩余单词W-i的条件概率p(wi|W-i)和单词wi的先验概率p(wi),计算单词wi相对于剩余单词W-i之间的相关性得分PMI,计算公式为:
Figure FDA0003074301200000021
7.根据权利要求4-6任一项所述的装置,其特征在于,还包括:
搭配不当词提取模块,用于在所述句子流畅度小于正常流畅度的情况下,所述句子流畅度对应的最小相关性得分的单词为搭配不当词。
8.一种句子流畅度检测终端,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至3中任一项所述方法。
9.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至3中任一项所述方法。
CN201910514989.0A 2019-06-13 2019-06-13 句子流畅度检测方法、装置以及终端 Active CN110232117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910514989.0A CN110232117B (zh) 2019-06-13 2019-06-13 句子流畅度检测方法、装置以及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910514989.0A CN110232117B (zh) 2019-06-13 2019-06-13 句子流畅度检测方法、装置以及终端

Publications (2)

Publication Number Publication Date
CN110232117A CN110232117A (zh) 2019-09-13
CN110232117B true CN110232117B (zh) 2021-07-16

Family

ID=67859182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910514989.0A Active CN110232117B (zh) 2019-06-13 2019-06-13 句子流畅度检测方法、装置以及终端

Country Status (1)

Country Link
CN (1) CN110232117B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717022A (zh) * 2019-09-18 2020-01-21 平安科技(深圳)有限公司 一种机器人对话生成方法、装置、可读存储介质及机器人
CN110888976B (zh) * 2019-11-14 2023-06-20 北京香侬慧语科技有限责任公司 一种文本摘要生成方法和装置
CN112818110B (zh) * 2020-12-31 2024-05-24 鹏城实验室 文本过滤方法、设备及计算机存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133211A (zh) * 2017-04-26 2017-09-05 中国人民大学 一种基于注意力机制的作文评分方法
CN107480143A (zh) * 2017-09-12 2017-12-15 山东师范大学 基于上下文相关性的对话话题分割方法和系统
CN109508377A (zh) * 2018-11-26 2019-03-22 南京云思创智信息科技有限公司 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质
CN109711121A (zh) * 2018-12-27 2019-05-03 清华大学 基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置
CN109726276A (zh) * 2018-12-29 2019-05-07 中山大学 一种基于深度网络学习的任务型对话系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8650172B2 (en) * 2010-03-01 2014-02-11 Microsoft Corporation Searchable web site discovery and recommendation
US9262397B2 (en) * 2010-10-08 2016-02-16 Microsoft Technology Licensing, Llc General purpose correction of grammatical and word usage errors

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133211A (zh) * 2017-04-26 2017-09-05 中国人民大学 一种基于注意力机制的作文评分方法
CN107480143A (zh) * 2017-09-12 2017-12-15 山东师范大学 基于上下文相关性的对话话题分割方法和系统
CN109508377A (zh) * 2018-11-26 2019-03-22 南京云思创智信息科技有限公司 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质
CN109711121A (zh) * 2018-12-27 2019-05-03 清华大学 基于马尔可夫模型和哈夫曼编码的文本隐写方法及装置
CN109726276A (zh) * 2018-12-29 2019-05-07 中山大学 一种基于深度网络学习的任务型对话系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Sentence-Level Fluency Evaluation: References Help, But Can Be Spared";K Kann等;《Proceedings of the 22nd Conference on Computational Natural Language Learning》;20180924;1-11页 *
"现代信息技术条件下外交机辅翻译模型研究初探";杨明星等;《外语电化教学》;20130515(第3期);33-41页 *

Also Published As

Publication number Publication date
CN110232117A (zh) 2019-09-13

Similar Documents

Publication Publication Date Title
CN110188350B (zh) 文本一致性计算方法及装置
US11004448B2 (en) Method and device for recognizing text segmentation position
CN110232117B (zh) 句子流畅度检测方法、装置以及终端
CN108182246B (zh) 敏感词检测过滤方法、装置和计算机设备
CN108897723B (zh) 场景对话文本识别方法、装置以及终端
CN109492213B (zh) 句子相似度计算方法和装置
CN110705302A (zh) 命名实体的识别方法、电子设备及计算机存储介质
CN108897852A (zh) 对话内容连贯性的判断方法、装置以及设备
CN107122492A (zh) 基于图片内容的歌词生成方法和装置
CN108304387B (zh) 文本中噪音词的识别方法、装置、服务器组及存储介质
CN110866095A (zh) 一种文本相似度的确定方法及相关设备
CA3232610A1 (en) Convolution attention network for multi-label clinical document classification
CN110427454A (zh) 文本情绪分析方法及装置、电子设备和非暂态存储介质
CN114065741B (zh) 用于验证表述的真实性的方法、设备、装置和介质
CN108829896B (zh) 回复信息反馈方法和装置
CN110879832A (zh) 目标文本检测方法、模型训练方法、装置及设备
CN110232116B (zh) 回复语句中的表情添加的方法及装置
CN109614624B (zh) 一种英文语句的识别方法及电子设备
CN109993190B (zh) 一种本体匹配方法、装置和计算机存储介质
CN112116181A (zh) 课堂质量模型的训练方法、课堂质量评价方法及装置
CN113515627B (zh) 文档检测方法、装置、设备及存储介质
CN115080864A (zh) 基于人工智能的产品推荐方法、装置、计算机设备及介质
JP7192356B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN114154511A (zh) 语义相似度计算和模型训练方法、装置、设备及存储介质
CN109558582B (zh) 基于视角的句子情感分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant