CN107341143B - 一种句子连贯性判断方法及装置和电子设备 - Google Patents

一种句子连贯性判断方法及装置和电子设备 Download PDF

Info

Publication number
CN107341143B
CN107341143B CN201710384666.5A CN201710384666A CN107341143B CN 107341143 B CN107341143 B CN 107341143B CN 201710384666 A CN201710384666 A CN 201710384666A CN 107341143 B CN107341143 B CN 107341143B
Authority
CN
China
Prior art keywords
sentence
text
sample data
consistency
sentence consistency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710384666.5A
Other languages
English (en)
Other versions
CN107341143A (zh
Inventor
余咸国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201710384666.5A priority Critical patent/CN107341143B/zh
Publication of CN107341143A publication Critical patent/CN107341143A/zh
Application granted granted Critical
Publication of CN107341143B publication Critical patent/CN107341143B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种句子连贯性判断方法及装置和电子设备,应用于多媒体技术领域,所述方法包括:获取待分析文本,对待分析文本进行预处理,得到待处理文本。对待处理文本中的每一个字符进行向量表示,得到待处理文本的字符矩阵。将字符矩阵输入预先建立的句子连贯性模型,得到字符矩阵对应的句子连贯性向量,其中,句子连贯性模型是根据样本数据,以及样本数据对应的句子连贯性结果进行训练得到的。根据句子连贯性向量,得到待分析文本的句子连贯性结果。本发明实施例通过卷积神经网络对样本文本进行训练,得到句子连贯性模型,通过句子连贯性模型识别不连贯的句子,提高了句子连贯性判断的准确性。

Description

一种句子连贯性判断方法及装置和电子设备
技术领域
本发明涉及多媒体技术领域,特别是涉及一种句子连贯性判断方法及装置和电子设备。
背景技术
在视频分析中,为了更好地分析视频所表达的内容、更深地挖掘视频信息,目前往往通过分析视频中的字幕来理解视频,而字幕文本的获取,最准确有效的方法是OCR(Optical Character Recognition,光学字符识别)识别。但是,在OCR识别中,由于视频背景的多样性,以及字幕定位算法精度的不足,在OCR识别中会有部分识别错误的字幕,如果不对错误的字幕纠错或者剔除,那么会对之后的字幕分析造成非常大的干扰。由于错误的字幕会造成句子的不连贯性,因此,可通过判断句子的连贯性识别不通顺的句子,得到错误的字幕,进而对错误的字幕进行纠错或者剔除。
目前,对句子连贯性的判断都是基于语言模型。为了判断句子的通顺度,通过大量的训练语料构建N-Gram模型,计算句子的条件概率得到句子的通顺度。其中,N-Gram是大词汇连续语音识别中常用的一种语言模型,该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的条件概率就是各个词出现概率的乘积。通过直接从语料中统计N个词同时出现的次数可以得到整句的条件概率,常用的句子条件概率的计算包括:二元的Bi-Gram和三元的Tri-Gram。
虽然上述计算句子的条件概率的方法简单明了,但目前对训练语料中句子的分词准确率无法达到100%,特别是专有名词,分错的概率高达60%以上。并且,对于句子条件概率的计算,目前最多只计算tri-Gram,更高层次的条件概率需要更多的训练语料,同时计算更高层次的条件概率导致训练数据稀疏严重,计算时间复杂度高,句子条件概率的计算精度却提高的较少。由于无法计算更多的条件概率,从而不能考虑上下文之间的关系,进而导致不能根据上下文的逻辑关系判断句子的连贯性。因此,上述计算方法判断句子连贯性的准确性比较低。
发明内容
本发明实施例的目的在于提供一种句子连贯性判断方法及装置和电子设备,以提高句子连贯性判断的准确性。具体技术方案如下:
本发明实施例公开了一种句子连贯性判断方法,包括:
获取待分析文本,对所述待分析文本进行预处理,得到待处理文本;
对所述待处理文本中的每一个字符进行向量表示,得到所述待处理文本的字符矩阵;
将所述字符矩阵输入预先建立的句子连贯性模型,得到所述字符矩阵对应的句子连贯性向量,其中,所述句子连贯性模型是根据样本数据,以及样本数据对应的句子连贯性结果进行训练得到的;
根据所述句子连贯性向量,得到所述待分析文本的句子连贯性结果。
可选的,在所述获取待分析文本之前,所述方法还包括:
获取句子连贯的正样本数据和句子不连贯的负样本数据,其中,所述正样本数据和所述负样本数据分别具有对应的句子连贯性向量;
分别对所述正样本数据和所述负样本数据进行向量表示,得到所述正样本数据的字符矩阵和所述负样本数据的字符矩阵;
通过卷积神经网络对所述正样本数据的字符矩阵、所述正样本数据对应的句子连贯性向量,以及所述负样本数据的字符矩阵、所述负样本数据对应的句子连贯性向量进行训练,得到所述句子连贯性模型。
可选的,所述根据所述句子连贯性向量,得到所述待分析文本的句子连贯性结果,包括:
将所述句子连贯性向量中元素概率最高值对应的句子连贯性结果确定为所述待分析文本的句子连贯性结果,其中,所述句子连贯性向量中元素对应的句子连贯性结果包括:句子连贯和句子不连贯。
可选的,所述获取待分析文本,包括:
通过光学字符识别OCR技术识别待分析视频中的字幕,得到所述待分析文本。
可选的,所述对所述待分析文本进行预处理,包括:
删除所述待分析文本中的非中文字符。
本发明实施例公开了一种句子连贯性判断装置,包括:
预处理模块,用于获取待分析文本,对所述待分析文本进行预处理,得到待处理文本;
文本向量表示模块,用于对所述待处理文本中的每一个字符进行向量表示,得到所述待处理文本的字符矩阵;
句子连贯性向量获得模块,用于将所述字符矩阵输入预先建立的句子连贯性模型,得到所述字符矩阵对应的句子连贯性向量,其中,所述句子连贯性模型是根据样本数据,以及样本数据对应的句子连贯性结果进行训练得到的;
句子连贯性结果获得模块,用于根据所述句子连贯性向量,得到所述待分析文本的句子连贯性结果。
可选的,本发明实施例的句子连贯性判断装置,还包括:
样本数据获取模块,用于获取句子连贯的正样本数据和句子不连贯的负样本数据,其中,所述正样本数据和所述负样本数据分别具有对应的句子连贯性向量;
样本数据向量表示模块,用于分别对所述正样本数据和所述负样本数据进行向量表示,得到所述正样本数据的字符矩阵和所述负样本数据的字符矩阵;
模型训练模块,用于通过卷积神经网络对所述正样本数据的字符矩阵、所述正样本数据对应的句子连贯性向量,以及所述负样本数据的字符矩阵、所述负样本数据对应的句子连贯性向量进行训练,得到所述句子连贯性模型。
可选的,所述句子连贯性结果获得模块,具体用于将所述句子连贯性向量中元素概率最高值对应的句子连贯性结果确定为所述待分析文本的句子连贯性结果,其中,所述句子连贯性向量中元素对应的句子连贯性结果包括:句子连贯和句子不连贯。
可选的,所述预处理模块具体用于,通过光学字符识别OCR技术识别待分析视频中的字幕,得到所述待分析文本。
可选的,所述预处理模块具体用于,删除所述待分析文本中的非中文字符。
本发明实施例还公开了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现以下步骤:
获取待分析文本,对所述待分析文本进行预处理,得到待处理文本;
对所述待处理文本中的每一个字符进行向量表示,得到所述待处理文本的字符矩阵;
将所述字符矩阵输入预先建立的句子连贯性模型,得到所述字符矩阵对应的句子连贯性向量,其中,所述句子连贯性模型是根据样本数据,以及样本数据对应的句子连贯性结果进行训练得到的;
根据所述句子连贯性向量,得到所述待分析文本的句子连贯性结果。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的句子连贯性判断方法。
在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的句子连贯性判断方法。
本发明实施例提供的句子连贯性判断方法及装置和电子设备,通过获取待分析文本,对待分析文本进行预处理,得到待处理文本。对待处理文本中的每一个字符进行向量表示,得到待处理文本的字符矩阵。将字符矩阵输入预先建立的句子连贯性模型,得到字符矩阵对应的句子连贯性向量。根据句子连贯性向量,得到待分析文本的句子连贯性结果。本发明实施例通过卷积神经网络对样本文本进行训练,得到句子连贯性模型,通过句子连贯性模型识别不连贯的句子,提高了句子连贯性判断的准确性。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例的句子连贯性判断方法的一种流程图;
图2为本发明实施例的句子连贯性判断方法的另一种流程图;
图3为本发明实施例的句子连贯性判断装置的一种结构图;
图4为本发明实施例的句子连贯性判断装置的另一种结构图;
图5为本发明实施例的电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
为了解决现有技术中对句子连贯性判断准确率低的问题,本发明实施例提供了一种句子连贯性判断方法及装置和电子设备,以提高句子连贯性判断的准确性。下面首先对本发明实施例所提供的句子连贯性判断方法进行介绍。
参见图1,图1为本发明实施例的句子连贯性判断方法的一种流程图,包括以下步骤:
S101,获取待分析文本,对待分析文本进行预处理,得到待处理文本。
本发明实施例中,待分析文本可以是直接获取的文本数据,也可以是通过对视频信息进行字幕提取得到的文本数据,当然,还可以是通过其他形式获取的文本数据。对于文本数据,除了包括需要分析的文本信息,例如,中文字符,还可以包括对判断句子连贯性没有帮助的符号信息,例如,标点符号和英文字符等。而对句子连贯性的判断,指的是对句子中的文本信息连贯性的判断,因此,对待分析文本进行预处理,过滤掉不需要的符号信息等,可以降低句子连贯性判断的复杂性,提高句子连贯性判断的效率。
S102,对待处理文本中的每一个字符进行向量表示,得到待处理文本的字符矩阵。
可选的,通过Word2vec对待处理文本中的每一个字符进行向量表示,其中,Word2vec是Google在2013年年中开源的一款将词表征为实数值向量的高效工具,Word2vec利用深度学习的思想,通过训练,把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。因此,Word2vec输出的词向量可以被用来做很多NLP(Natural Language Processing,自然语言处理)相关的工作,比如聚类、找同义词、词性分析等等。Word2vec把特征映射到K维向量空间,可以为文本寻求更加深层次的特征表示。本发明实施例中,通过Word2vec把待处理文本中的每一个字符映射为K维向量空间,如果待处理文本中包含M个字符,那么,每一个字符由K维向量表示,待处理文本就可以表示为M×K的矩阵,即字符矩阵。其中,M为大于0的整数,K维向量一般是高维向量,因此,K可以为百位的整数,例如,K的取值为200,当然K也可以为其他数值,在此不做限定。
S103,将字符矩阵输入预先建立的句子连贯性模型,得到字符矩阵对应的句子连贯性向量,其中,句子连贯性模型是根据样本数据,以及样本数据对应的句子连贯性结果进行训练得到的。
具体的,句子连贯性模型是根据样本数据,以及样本数据对应的句子连贯性结果进行训练得到的,该句子连贯性模型包括:字符矩阵和句子连贯性向量的对应关系,其中,字符矩阵和句子连贯性向量是两种不同的表示文本信息的形式。本发明实施例中,将得到的待处理文本的字符矩阵输入句子连贯性模型,即可得到该字符矩阵对应的句子连贯性向量。句子连贯性模型的建立方法将在下文进行描述,在此不再赘述。
S104,根据句子连贯性向量,得到待分析文本的句子连贯性结果。
需要说明的是,由于句子连贯性是一个二分类问题,即,句子是连贯的,或者句子是不连贯的,因此,句子连贯性向量是一个二维向量。根据该二维向量,可方便地判断待分析文本的句子连贯性,得到待分析文本的句子连贯性结果。
本发明实施例提供的句子连贯性判断方法,通过对待分析文本进行预处理,得到待处理文本。对待处理文本中的每一个字符进行向量表示,得到待处理文本的字符矩阵。将字符矩阵输入预先建立的句子连贯性模型,得到字符矩阵对应的句子连贯性向量。根据句子连贯性向量,得到待分析文本的句子连贯性结果。本发明实施例通过卷积神经网络对样本文本进行训练,得到句子连贯性模型,通过句子连贯性模型识别不连贯的句子,提高了句子连贯性判断的准确性。
在图1实施例中,S103中句子连贯性模型的建立方法,可参见图2,图2为本发明实施例的句子连贯性判断方法的另一种流程图,包括以下步骤:
S201,获取句子连贯的正样本数据和句子不连贯的负样本数据,其中,正样本数据和负样本数据分别具有对应的句子连贯性向量。
本发明实施例中,正样本数据是指句子连贯的数据,例如,正样本数据为3000w电影字幕句子,其中,电影字幕句子是连贯的,每个句子的长度在15-25个字符之间。负样本数据指句子不连贯的数据,可以是将正样本数据进行乱序处理后的数据,例如,负样本数据为3000w乱序后的电影字幕句子,每个句子的长度在15-25个字符之间。
句子连贯性向量用于衡量一个句子是否连贯,句子连贯性向量可以表示为(连贯的概率,不连贯的概率),那么,正样本数据对应的句子连贯性向量为(1,0),负样本数据对应的句子连贯性向量为(0,1)。当然,句子连贯性向量还可以表示为(不连贯的概率,连贯的概率),本发明实施例不对连贯性向量的具体形式做限定。
S202,分别对正样本数据和负样本数据进行向量表示,得到正样本数据的字符矩阵和负样本数据的字符矩阵。
本发明实施例中,为了在输入卷积神经网络时统一句子长度,可选的,将正样本数据和负样本数据中的每一个句子的长度设置为固定值,例如,将每一个句子的长度设置为20个字符。那么,当句子的长度少于20个字符时,对句子添加预设字符,如字符“0”等,使句子达到20个字符;同理,当句子的长度大于20个字符时,将句子截断,保留句子的前20个字符,当然,也可以保留句子中间的20个字符,或者保留句子的后20个字符。在对正样本数据和负样本数据进行长度设置之后,通过Word2vec分别对正样本数据和负样本数据进行向量表示,得到正样本数据和负样本数据的字符矩阵。这样,得到的正样本数据和负样本数据的字符矩阵为整齐的矩阵。其中,通过Word2vec分别对正样本数据和负样本数据进行向量表示的方法与图1实施例中S102的方法相同,且属于现有技术,这里不再赘述。
S203,通过卷积神经网络对正样本数据的字符矩阵、正样本数据对应的句子连贯性向量,以及负样本数据的字符矩阵、负样本数据对应的句子连贯性向量进行训练,得到句子连贯性模型。
具体的,句子连贯性模型表示这样一种对应关系,将文本的字符矩阵输入该句子连贯性模型,可以得到该文本对应的句子连贯性向量,即字符矩阵和句子连贯性向量的对应关系。因此,正样本数据的字符矩阵、正样本数据对应的句子连贯性向量是正样本数据中的对应关系,负样本数据的字符矩阵、负样本数据对应的句子连贯性向量是负样本数据中的对应关系,通过卷积神经网络对正样本数据中的对应关系和负样本数据中的对应关系进行训练,得到句子连贯性模型。
本发明实施例的一种实现方式中,根据句子连贯性向量,得到待分析文本的句子连贯性结果,包括:
将句子连贯性向量中元素概率最高值对应的句子连贯性结果确定为待分析文本的句子连贯性结果,其中,句子连贯性向量中元素对应的句子连贯性结果包括:句子连贯和句子不连贯。
可选的,句子连贯性向量可以表示为(连贯的概率,不连贯的概率),如果连贯的概率比较高,句子连贯性结果即为连贯;如果不连贯的概率比较高,句子连贯性结果即为不连贯。例如,得到的句子A的句子连贯性向量为(0.6,0.4),0.6表示连贯的概率,0.4表示不连贯的概率,显然,连贯的概率大于不连贯的概率,因此,句子A的句子连贯性结果为连贯。
本发明实施例的一种实现方式中,获取待分析文本,包括:
通过光学字符识别OCR技术识别待分析视频中的字幕,得到待分析文本。
需要说明的是,OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定字符形状,然后用字符识别方法将形状翻译成计算机文字的过程。待分析文本可以是通过对待分析视频进行字幕提取得到的文本数据,这样,通过对文本数据进行句子连贯性判断,可以更好地理解待分析视频所表达的内容,更深地挖掘视频信息。另外,还可以对视频进行看点分析,得到视频的精彩看点,而对于特定的场景,可以推荐个性化的广告等。
本发明实施例的一种实现方式中,对待分析文本进行预处理,包括:
删除待分析文本中的非中文字符。
通常,待分析文本中包含多种字符形式,本发明实施例的句子连贯性判断指的是,对中文字符的句子连贯性的判断,因此,需要将待分析文本中的非中文字符删除,其中,非中文字符包括:英文字符、标点符号、其他语种的字符等。
另外,待分析文本中的句子长度可能多种多样,本发明实施例中,还可以对待分析文本的句子长度进行设置,包括:对长句子进行截断处理,对短句子添加特定字符,使短句子达到预设长度等等。这样,使输入句子连贯性模型的字符矩阵更加整齐,并且不超出句子连贯性模型的处理范围。
相应于上述方法实施例,本发明实施例还提供了一种句子连贯性判断装置,参见图3,图3为本发明实施例的句子连贯性判断装置的一种结构图,包括:
预处理模块301,用于获取待分析文本,对待分析文本进行预处理,得到待处理文本。
文本向量表示模块302,用于对待处理文本中的每一个字符进行向量表示,得到待处理文本的字符矩阵。
句子连贯性向量获得模块303,用于将字符矩阵输入预先建立的句子连贯性模型,得到字符矩阵对应的句子连贯性向量,其中,句子连贯性模型是根据样本数据,以及样本数据对应的句子连贯性结果进行训练得到的。
句子连贯性结果获得模块304,用于根据句子连贯性向量,得到待分析文本的句子连贯性结果。
本发明实施例提供的句子连贯性判断装置,通过对待分析文本进行预处理,得到待处理文本。对待处理文本中的每一个字符进行向量表示,得到待处理文本的字符矩阵。将字符矩阵输入预先建立的句子连贯性模型,得到字符矩阵对应的句子连贯性向量。根据句子连贯性向量,得到待分析文本的句子连贯性结果。本发明实施例通过卷积神经网络对样本文本进行训练,得到句子连贯性模型,通过句子连贯性模型识别不连贯的句子,提高了句子连贯性判断的准确性。
需要说明的是,本发明实施例的装置是应用上述句子连贯性判断方法的装置,则上述句子连贯性判断方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。
参见图4,图4为本发明实施例的句子连贯性判断装置的另一种结构图,在图3实施例的基础上,还包括:
样本数据获取模块401,用于获取句子连贯的正样本数据和句子不连贯的负样本数据,其中,正样本数据和负样本数据分别具有对应的句子连贯性向量。
样本数据向量表示模块402,用于分别对正样本数据和负样本数据进行向量表示,得到正样本数据的字符矩阵和负样本数据的字符矩阵。
模型训练模块403,用于通过卷积神经网络对正样本数据的字符矩阵、正样本数据对应的句子连贯性向量,以及负样本数据的字符矩阵、负样本数据对应的句子连贯性向量进行训练,得到句子连贯性模型。
可选的,本发明实施例的句子连贯性判断装置中,句子连贯性结果获得模块304,具体用于将句子连贯性向量中元素概率最高值对应的句子连贯性结果确定为待分析文本的句子连贯性结果,其中,句子连贯性向量中元素对应的句子连贯性结果包括:句子连贯和句子不连贯。
可选的,本发明实施例的句子连贯性判断装置中,预处理模块301具体用于,通过光学字符识别OCR技术识别待分析视频中的字幕,得到待分析文本。
可选的,本发明实施例的句子连贯性判断装置中,预处理模块301还用于,删除待分析文本中的非中文字符。
本发明实施例还提供了一种电子设备,参见图5,图5为本发明实施例的电子设备的结构图,包括:处理器501、通信接口502、存储器503和通信总线504,其中,处理器501、通信接口502、存储器503通过通信总线504完成相互间的通信;
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现以下步骤:
获取待分析文本,对待分析文本进行预处理,得到待处理文本。
对待处理文本中的每一个字符进行向量表示,得到待处理文本的字符矩阵。
将字符矩阵输入预先建立的句子连贯性模型,得到字符矩阵对应的句子连贯性向量,其中,句子连贯性模型是根据样本数据,以及样本数据对应的句子连贯性结果进行训练得到的。
根据句子连贯性向量,得到待分析文本的句子连贯性结果。
需要说明的是,上述电子设备提到的通信总线504可以是PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线504可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口502用于上述电子设备与其他设备之间的通信。
存储器503可以包括RAM(Random Access Memory,随机存取存储器),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器501可以是通用处理器,包括:CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital SignalProcessing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
由以上可见,本发明实施例的电子设备中,处理器通过执行存储器上所存放的程序,从而对待分析文本进行预处理,得到待处理文本。对待处理文本中的每一个字符进行向量表示,得到待处理文本的字符矩阵。将字符矩阵输入预先建立的句子连贯性模型,得到字符矩阵对应的句子连贯性向量,其中,句子连贯性模型是根据样本数据,以及样本数据对应的句子连贯性结果进行训练得到的。根据句子连贯性向量,得到待分析文本的句子连贯性结果。本发明实施例通过卷积神经网络对样本文本进行训练,得到句子连贯性模型,通过句子连贯性模型识别不连贯的句子,提高了句子连贯性判断的准确性。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的句子连贯性判断方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的句子连贯性判断方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (11)

1.一种句子连贯性判断方法,其特征在于,包括:
获取待分析文本,对所述待分析文本进行预处理,得到待处理文本;
对所述待处理文本中的每一个字符进行向量表示,得到所述待处理文本的字符矩阵;
将所述字符矩阵输入预先建立的句子连贯性模型,得到所述字符矩阵对应的句子连贯性向量,其中,所述句子连贯性模型是根据样本数据,以及样本数据对应的句子连贯性结果进行训练得到的,所述句子连贯性向量为一个二维向量,该二维向量中的元素包括:句子连贯的概率和句子不连贯的概率;
根据所述句子连贯性向量,得到所述待分析文本的句子连贯性结果,所述句子连贯性结果为句子连贯或句子不连贯。
2.根据权利要求1所述的句子连贯性判断方法,其特征在于,在所述获取待分析文本之前,所述方法还包括:
获取句子连贯的正样本数据和句子不连贯的负样本数据,其中,所述正样本数据和所述负样本数据分别具有对应的句子连贯性向量;
分别对所述正样本数据和所述负样本数据进行向量表示,得到所述正样本数据的字符矩阵和所述负样本数据的字符矩阵;
通过卷积神经网络对所述正样本数据的字符矩阵、所述正样本数据对应的句子连贯性向量,以及所述负样本数据的字符矩阵、所述负样本数据对应的句子连贯性向量进行训练,得到所述句子连贯性模型。
3.根据权利要求1所述的句子连贯性判断方法,其特征在于,所述根据所述句子连贯性向量,得到所述待分析文本的句子连贯性结果,包括:
将所述句子连贯性向量中元素概率最高值对应的句子连贯性结果确定为所述待分析文本的句子连贯性结果,其中,所述句子连贯性向量中元素对应的句子连贯性结果包括:句子连贯和句子不连贯。
4.根据权利要求1所述的句子连贯性判断方法,其特征在于,所述获取待分析文本,包括:
通过光学字符识别OCR技术识别待分析视频中的字幕,得到所述待分析文本。
5.根据权利要求1所述的句子连贯性判断方法,其特征在于,所述对所述待分析文本进行预处理,包括:
删除所述待分析文本中的非中文字符。
6.一种句子连贯性判断装置,其特征在于,包括:
预处理模块,用于获取待分析文本,对所述待分析文本进行预处理,得到待处理文本;
文本向量表示模块,用于对所述待处理文本中的每一个字符进行向量表示,得到所述待处理文本的字符矩阵;
句子连贯性向量获得模块,用于将所述字符矩阵输入预先建立的句子连贯性模型,得到所述字符矩阵对应的句子连贯性向量,其中,所述句子连贯性模型是根据样本数据,以及样本数据对应的句子连贯性结果进行训练得到的,所述句子连贯性向量为一个二维向量,该二维向量中的元素包括:句子连贯的概率和句子不连贯的概率;
句子连贯性结果获得模块,用于根据所述句子连贯性向量,得到所述待分析文本的句子连贯性结果,所述句子连贯性结果为句子连贯或句子不连贯。
7.根据权利要求6所述的句子连贯性判断装置,其特征在于,还包括:
样本数据获取模块,用于获取句子连贯的正样本数据和句子不连贯的负样本数据,其中,所述正样本数据和所述负样本数据分别具有对应的句子连贯性向量;
样本数据向量表示模块,用于分别对所述正样本数据和所述负样本数据进行向量表示,得到所述正样本数据的字符矩阵和所述负样本数据的字符矩阵;
模型训练模块,用于通过卷积神经网络对所述正样本数据的字符矩阵、所述正样本数据对应的句子连贯性向量,以及所述负样本数据的字符矩阵、所述负样本数据对应的句子连贯性向量进行训练,得到所述句子连贯性模型。
8.根据权利要求6所述的句子连贯性判断装置,其特征在于,所述句子连贯性结果获得模块,具体用于将所述句子连贯性向量中元素概率最高值对应的句子连贯性结果确定为所述待分析文本的句子连贯性结果,其中,所述句子连贯性向量中元素对应的句子连贯性结果包括:句子连贯和句子不连贯。
9.根据权利要求6所述的句子连贯性判断装置,其特征在于,所述预处理模块具体用于,通过光学字符识别OCR技术识别待分析视频中的字幕,得到所述待分析文本。
10.根据权利要求6所述的句子连贯性判断装置,其特征在于,所述预处理模块具体用于,删除所述待分析文本中的非中文字符。
11.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
CN201710384666.5A 2017-05-26 2017-05-26 一种句子连贯性判断方法及装置和电子设备 Active CN107341143B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710384666.5A CN107341143B (zh) 2017-05-26 2017-05-26 一种句子连贯性判断方法及装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710384666.5A CN107341143B (zh) 2017-05-26 2017-05-26 一种句子连贯性判断方法及装置和电子设备

Publications (2)

Publication Number Publication Date
CN107341143A CN107341143A (zh) 2017-11-10
CN107341143B true CN107341143B (zh) 2020-08-14

Family

ID=60220163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710384666.5A Active CN107341143B (zh) 2017-05-26 2017-05-26 一种句子连贯性判断方法及装置和电子设备

Country Status (1)

Country Link
CN (1) CN107341143B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134940B (zh) * 2019-02-27 2023-04-07 中国科学院电工研究所 一种训练文本识别模型、文本连贯性的方法及装置
CN110309279A (zh) * 2019-05-23 2019-10-08 平安国际智慧城市科技股份有限公司 基于语言模型的话语训练方法、装置及计算机设备
CN110750979B (zh) * 2019-10-17 2023-07-25 科大讯飞股份有限公司 一种篇章连贯性的确定方法以及检测装置
CN111581447A (zh) * 2020-05-11 2020-08-25 吉林大学 一种裁判文书评查方法
CN112417856B (zh) * 2020-11-27 2024-06-21 北京明略昭辉科技有限公司 提升机器写作质量的方法、系统、计算机设备及存储介质
CN112818110B (zh) * 2020-12-31 2024-05-24 鹏城实验室 文本过滤方法、设备及计算机存储介质
CN113360742A (zh) * 2021-05-19 2021-09-07 维沃移动通信有限公司 推荐信息确定方法、装置及电子设备
CN114139524B (zh) * 2021-11-29 2022-09-13 浙江大学 故事文本的预测方法、装置以及电子设备
CN115905865A (zh) * 2022-11-22 2023-04-04 蚂蚁财富(上海)金融信息服务有限公司 文本合并判断模型的训练方法和文本合并判断方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720675B2 (en) * 2003-10-27 2010-05-18 Educational Testing Service Method and system for determining text coherence
SG188531A1 (en) * 2010-09-24 2013-04-30 Univ Singapore Methods and systems for automated text correction
CN103294663B (zh) * 2013-05-03 2016-03-02 苏州大学 一种文本连贯性检测方法和装置
CN106610930B (zh) * 2015-10-22 2019-09-03 科大讯飞股份有限公司 外语写作自动纠错方法及系统

Also Published As

Publication number Publication date
CN107341143A (zh) 2017-11-10

Similar Documents

Publication Publication Date Title
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN109344830B (zh) 语句输出、模型训练方法、装置、计算机设备及存储介质
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN109472022B (zh) 基于机器学习的新词识别方法及终端设备
CN111046660B (zh) 一种识别文本专业术语的方法及装置
CN109446333A (zh) 一种实现中文文本分类的方法及相关设备
CN112381038B (zh) 一种基于图像的文本识别方法、系统和介质
CN110866095A (zh) 一种文本相似度的确定方法及相关设备
US20140380169A1 (en) Language input method editor to disambiguate ambiguous phrases via diacriticization
CN107526721B (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN114861630B (zh) 信息获取及相关模型的训练方法、装置、电子设备和介质
CN115438650B (zh) 融合多源特征的合同文本纠错方法、系统、设备及介质
CN112380866A (zh) 一种文本话题标签生成方法、终端设备及存储介质
CN114416981A (zh) 一种长文本的分类方法、装置、设备及存储介质
CN111160026B (zh) 一种模型训练方法、装置、实现文本处理的方法及装置
CN113761923A (zh) 命名实体识别方法、装置、电子设备及存储介质
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN110874408A (zh) 模型训练方法、文本识别方法、装置及计算设备
Yasin et al. Transformer-Based Neural Machine Translation for Post-OCR Error Correction in Cursive Text
CN111310473A (zh) 文本纠错方法及其模型训练的方法、装置
Sreejith et al. N-gram based algorithm for distinguishing between Hindi and Sanskrit texts
US10789410B1 (en) Identification of source languages for terms
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN114580391A (zh) 中文错误检测模型训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant