CN105988978B - 确定文本焦点的方法及系统 - Google Patents

确定文本焦点的方法及系统 Download PDF

Info

Publication number
CN105988978B
CN105988978B CN201510096777.7A CN201510096777A CN105988978B CN 105988978 B CN105988978 B CN 105988978B CN 201510096777 A CN201510096777 A CN 201510096777A CN 105988978 B CN105988978 B CN 105988978B
Authority
CN
China
Prior art keywords
focus
prediction
units
text
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510096777.7A
Other languages
English (en)
Other versions
CN105988978A (zh
Inventor
周明
江源
凌震华
王影
胡国平
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201510096777.7A priority Critical patent/CN105988978B/zh
Publication of CN105988978A publication Critical patent/CN105988978A/zh
Application granted granted Critical
Publication of CN105988978B publication Critical patent/CN105988978B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种确定文本焦点的方法及系统,该方法包括:接收待处理文本;对所述文本进行预处理,所述预处理包括:对所述文本进行分词、词性标注及字音转换;提取预处理后的文本中所有语法单元的文本特征,所述文本特征包括:低层文本特征、统计特征及句法特征;利用提取的文本特征及预先训练的焦点预测模型进行焦点概率预测,得到预测焦点概率;根据所述预测焦点概率确定文本焦点。利用本发明,可以提高焦点预测的准确性。

Description

确定文本焦点的方法及系统
技术领域
本发明涉及自然语言处理领域,具体涉及一种确定文本焦点的方法及系统。
背景技术
言语交流的过程既是信息传递的过程,也是从中获取信息语义的过程。焦点就是在这个过程中人们言语交流的重点,焦点的形成贯穿于言语产生和理解的全过程。语句的焦点总是处在言语交际或一定的上下文语境中。由于言语交际的任务不同,上下文语境不同,信息传达者意欲传达的信息也就不同,同样的语句在不同的上下文语境中焦点也会有所不同。因此,焦点也就自然成为连结句法结构、词汇、语义、语用以及韵律结构之间的重要桥梁,对于语句和语言的理解、信息的交流起着重要的作用。如何准确的预测语句中的焦点在语句分析中是十分必要的。
现有的焦点预测方法一般是利用统计模型的方法对焦点进行预测,即对待处理文本进行预处理,主要包括分词、词性标注及字音转换,然后提取文本特征,利用预先训练好的焦点预测模型进行焦点预测,得到预测结果。所述方法使用的特征一般是一些低层文本特征,如词性、声调等,难以描述焦点所处的复杂上下文语境,进而会影响焦点预测的准确性。
发明内容
本发明实施例提供一种确定文本焦点的方法及系统,以提高焦点预测的准确性。
为此,本发明实施例提供如下技术方案:
一种确定文本焦点的方法,包括:
接收待处理文本;
对所述文本进行预处理,所述预处理包括:对所述文本进行分词、词性标注及字音转换;
提取预处理后的文本中所有语法单元的文本特征,所述文本特征包括:低层文本特征、统计特征及句法特征;
利用提取的文本特征及预先训练的焦点预测模型进行焦点概率预测,得到预测焦点概率;
根据所述预测焦点概率确定文本焦点。
优选地,所述低层文本特征包括:词性、声调、词面、词长、前向位置、后向位置、复合文本特征;
所述统计特征包括:当前语法单元在语料库中是焦点的概率P1和语料库中焦点是当前语法单元的概率P2
所述句法特征包括:当前语句的依存句法树中当前节点的高度、当前节点的从属词个数、当前节点与其父节点间的依存关系、当前节点与其父节点之间的依存距离,所述依存句法树中的节点表示语法单元,树中的边表示语法单元之间的依存关系。
优选地,通过离线方式或在线方式计算所述统计特征。
优选地,根据当前语句的依存句法树获取所述句法特征。
优选地,所述利用提取的文本特征及预先训练的焦点预测模型进行焦点概率预测,得到预测焦点概率包括:
利用提取的文本特征及预先训练的焦点预测模型进行焦点概率预测,得到语法单元的预测焦点概率;
所述根据所述预测焦点概率确定文本焦点包括:
如果所述语法单元的预测焦点概率大于设定的阈值,则确定所述语法单元为焦点,否则为非焦点。
优选地,所述对所述文本进行预处理还包括:对分词后的文本进行韵律分析,得到所述文本中每个语句的韵律单元及韵律单元边界预测概率;
所述利用提取的文本特征及预先训练的焦点预测模型进行焦点概率预测,得到预测焦点概率包括:
利用提取的文本特征及预先训练的焦点预测模型进行焦点概率预测,得到语法单元的预测焦点概率;
根据所述语法单元的预测焦点概率计算韵律单元的预测焦点概率;
所述根据所述预测焦点概率确定文本焦点包括:
根据所述韵律单元边界预测概率和所述韵律单元的预测焦点概率计算韵律单元焦点概率;
如果所述韵律单元焦点概率大于设定的阈值,则确定所述韵律单元为焦点,否则为非焦点。
优选地,所述根据所述语法单元的预测焦点概率计算所述韵律单元的预测焦点概率包括:
如果韵律单元对应多个语法单元,则融合所述多个语法单元的预测焦点概率得到韵律单元的预测焦点概率;
如果韵律单元对应一个语法单元,则将所述语法单元的预测焦点概率作为所述韵律单元的预测焦点概率。
一种确定文本焦点的系统,包括:
接收模块,用于接收待处理文本;
预处理模块,用于对所述文本进行预处理,所述预处理包括:对所述文本进行分词、词性标注及字音转换;
特征提取模块,用于提取预处理后的文本中所有语法单元的文本特征,所述文本特征包括:低层文本特征、统计特征及句法特征;
焦点预测模块,用于利用提取的文本特征及预先训练的焦点预测模型进行焦点概率预测,得到预测焦点概率;
确定模块,用于根据所述预测焦点概率确定文本焦点。
优选地,所述特征提取模块通过离线方式或在线方式计算所述统计特征。
优选地,所述特征提取模块根据当前语句的依存句法树获取所述句法特征。
优选地,所述焦点预测模块,具体用于利用提取的文本特征及预先训练的焦点预测模型进行焦点概率预测,得到语法单元的预测焦点概率;
所述确定模块,具体用于判断所述语法单元的预测焦点概率是否大于设定的阈值,如果是,则确定所述语法单元为焦点,否则为非焦点。
优选地,所述预处理模块还用于对分词后的文本进行韵律分析,得到所述文本中每个语句的韵律单元及韵律单元边界预测概率;
所述焦点预测模块包括:
预测单元,用于利用提取的文本特征及预先训练的焦点预测模型进行焦点概率预测,得到语法单元的预测焦点概率;
第一计算单元,用于根据所述语法单元的预测焦点概率计算韵律单元的预测焦点概率;
所述确定模块包括:
第二计算单元,用于根据所述韵律单元边界预测概率和所述韵律单元的预测焦点概率计算韵律单元焦点概率;
判断单元,具体用于判断所述韵律单元焦点概率是否大于设定的阈值,如果是,则确定所述韵律单元为焦点,否则为非焦点。
优选地,所述第一计算单元,具体用于在所述韵律单元对应多个语法单元时,融合所述多个语法单元的预测焦点概率得到韵律单元的预测焦点概率;在所述韵律单元对应一个语法单元时,将所述语法单元的预测焦点概率作为所述韵律单元的预测焦点概率。
本发明实施例提供的确定文本焦点的方法及系统,在进行文本焦点预测时,不仅采用了传统方法中的低层文本特征,而且还利用了非低层的统计特征及句法特征,大大提高了焦点预测的准确性。
进一步地,将语法单元映射为韵律单元,以韵律单元作为焦点的承载单元进行焦点预测,体现了焦点在语流中的韵律连续性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明确定文本焦点的方法第一实施例的流程图;
图2是本发明实施例中依存句法树的示例图;
图3是本发明确定文本焦点的方法第二实施例的流程图;
图4是本发明实施例确定文本焦点的系统的一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
焦点是指在未知信息中着重说明的部分或者发话者有意强调的部分。在传达信息时,信息传达者为了能让信息接收者理解自己所要传达的信息重点,总是会通过声学表达上的一些非常规变化来突显焦点,如“凌府别院那么繁重的事物”中的“繁重的”被标记为焦点。
本发明实施例确定文本焦点的方法及系统,不仅采用了传统方法中的低层文本特征,而且还利用了非低层的统计特征及句法特征,利用提取的这些文本特征及预先训练的焦点预测模型进行焦点概率预测,得到预测焦点概率,根据预测焦点概率确定文本焦点。由于这些统计特征及句法特征更全面地描述了焦点所处的复杂上下文语境,从而大大提高了焦点预测的准确性。进一步地,在进行焦点预测时,以韵律单元作为焦点的承载单元,结合韵律信息进行焦点预测,使得预测出的焦点更符合人类语言表达的特点。
如图1所示,是本发明实施例确定文本焦点的方法的流程图,包括以下步骤:
步骤101,接收待处理文本。
步骤102,对所述文本进行预处理,所述预处理包括:对所述文本进行分词、词性标注及字音转换。
具体地,可以利用现有的方法对待处理文本进行分词、词性标注及字音转换,如基于CRF(条件随机域)的方法进行分词和词性标注,得到分词结果。
此处以广西师范大学出版社出版的《晚清有个李鸿章》(作者:赵焰)中的一句话作为示例性文本:“绝对的王权才是国家政权的真正目标”,其分词结果及词性标注如下:
绝对/a的/u王权/n才是/v国家政权/n的/u真正/a目标/n
其中,分词结果中的字母,如/a,表示分词得到的语法单元对应的词性。
通过字音转换处理可以得到文本对应的拼音信息及声调信息。
步骤103,提取预处理后的文本中所有语法单元的文本特征,所述文本特征包括:低层文本特征、统计特征及句法特征。
在本发明实施例中,利用待处理文本预处理后的结果提取每个语法单元的文本特征来描述所述语法单元的语境相关信息,所述文本特征除了低层文本特征外,还包含所述语法单元在语料库中的统计特征及所述语法单元在语句中的句法特征。
所述低层文本特征主要包括:词性、声调、词面、词长、前向位置、后向位置及复合文本特征。其中:
词性表示语法单元的语法角色,如名词、形容词;
声调表示语法单元中单字的声调变化;
词面表示语法单元本身;
词长表示语法单元中的单字个数;
前向位置表示从前向后数,当前语法单元在句子中的位置;
后向位置表示从后向前数,当前语法单元在句子中的位置;
所述复合文本特征是指单个文本特征的组合,如使用Q代表词性、S代表词长、W代表词面,i代表当前语法单元索引,当前语法单元的部分复合特征如:Qi-1QiQi+1,Qi-1Si,Qi- 1Wi,Qi-1SiWi+1等,复合文本特征中单个特征的组合方式可以通过人工设定或通过实验结果确定。
提取所述统计特征时,需要对语料库中相关语法单元进行统计,所述统计特征包括当前语法单元在语料库中是焦点的概率P1和语料库中焦点是当前语法单元的概率P2,具体计算方法如下:
其中,Fcur表示语料库中当前语法单元是焦点的总数,Ncur表示当前语法单元在语料库中出现的次数,Nfoc表示语料库中的焦点总数。
所述语料库可以通过收集大量相关语料数据,通过人工或机器进行焦点标注后构建而成。所述统计特征可以预先根据语料库中数据离线计算,也可以在线计算。离线计算时,将语料库中每个语法单元的统计特征计算完成后,构建统计特征词典,所述统计特征词典包含语料库中每个语法单元的统计特征。在计算当前语法单元的统计特征时,直接从所述统计特征词典中查找所述语法单元的相应统计特征即可。在线计算时,当前语法单元的统计特征可以直接利用语料库中相关数据根据式(1)和(2)计算即可。如果当前语法单元未出现在语料库中,则所述语法单元的统计特征P1和P2可以统一指定为固定值,具体取值根据实际情况而定。
所述句法特征可以根据当前语句的依存句法树得到。所述依存句法树中的节点表示语法单元,树中的边表示语法单元之间的依存关系。
如图2为“绝对的王权才是国家政权的真正目标”的依存句法树。树中ROOT节点为虚节点,提取句法特征时不考虑。
在本发明实施例中,提取的句法特征主要包括:
1)当前节点的高度,所述高度可以从树的根节点开始自上往下数,也可以从树的叶子节点自下往上数;每经过一层,高度加1;
2)当前节点的从属词个数,即在依存句法树中,当前节点的子节点数;
3)当前节点与其父节点间的依存关系;
如图2所示,边上的依存关系有:HED:核心词语,SBV:主谓关系,VOB:动宾关系,ATT:定语中心语关系,DE:“的”字结构;
4)当前节点与其父节点之间的依存距离,所述依存距离指当前节点与其父节点在语句中的距离。
以图2中“王权”节点为例,节点的高度为2,当前节点的从属词个数为1,当前节点与其父节点的依存关系为SBV,当前节点与其父节点之间的依存距离为1。
步骤104,利用提取的文本特征及预先训练的焦点预测模型进行焦点概率预测,得到预测焦点概率。
所述焦点预测模型可以通过大量训练数据离线训练得到。
步骤105,根据所述预测焦点概率确定文本焦点。
需要说明的是,在实际应用中,可以以语法单元或韵律单元作为焦点的承载单元。所述语法单元是指对文本分词后的基本语言单位,如词单元。
如果以语法单元作为焦点的承载单元,相应地,在上述步骤104中,进行焦点概率预测得到的是语法单元的预测焦点概率。在步骤105中,可以直接根据语法单元的预测焦点概率确定文本焦点。具体地,可以设置焦点概率阈值,如果所述语法单元的预测焦点概率大于该阈值,则确定所述语法单元为焦点,否则为非焦点。
本发明实施例确定文本焦点的方法,不仅采用了传统方法中的低层文本特征,而且还利用了非低层的统计特征及句法特征,大大提高了焦点预测的准确性。
由于语法单元只考虑了语法功能而忽略了其在言语交流中的语音表现,因此,在作为焦点时会破坏韵律上的连贯性。如“这一天”进行分词后的语法单元为“这/n一/m天/q”,而在实际语流中,“这一天”直接作为一个韵律单元,具有韵律上的连贯性。
为此,在本发明方法另一实施例中,还可以使用韵律单元作为焦点的承载单元,综合考虑了焦点的预测概率和韵律单元的边界预测概率进行焦点预测。
如图3所示,是本发明确定文本焦点的方法的第二实施例的流程图。
步骤301,接收待处理文本。
步骤302,对所述文本进行预处理,所述预处理包括:对所述文本进行分词、词性标注、字音转换及韵律分析,得到所述文本中每个语句的韵律单元及韵律单元边界预测概率。
所述韵律分析是指通过预先训练好的韵律模型对分词后的文本进行分析,得到所述文本中每个语句的韵律单元边界和韵律单元边界预测概率。所述韵律单元如韵律词。
如下为“绝对的王权才是国家政权的真正目标”韵律分析结果,具体韵律分析方法与现有技术相同,此处不再详述。
绝对的*王权#才是*国家*政权的*真正*目标。
jue2dui4de0wang2quan2cai2shi4guo2jia1zheng4quan2de0zhen1zheng4mu4biao1
其中第一行是韵律行,*和#表示韵律边界,两个韵律边界之间的文本作为一个韵律单元,所述韵律单元在韵律上具有稳定的表现,所述韵律行中韵律单元与分词结果中的语法单元是对应的,所述韵律单元如“绝对的”、“王权”、“才是”,所述韵律单元边界预测概率指当前单元被预测为韵律单元的概率,如韵律单元“绝对的”的左边界预测概率为1,右边界预测概率为0.8。第二行是拼音行,包括所述文本对应的拼音信息和声调信息,其中,0调表示一般的必读轻声词,如:的、呢、啊等;1~4调分别对应于中文中的阴、阳、上、去声;6~9调表示轻读词,它是由对1~4调的弱读而得到。
步骤303,提取预处理后的文本中所有语法单元的文本特征,所述文本特征包括:低层文本特征、统计特征及句法特征。
上述各特征的提取过程与前面步骤103相同,在此不再赘述。
步骤304,利用提取的文本特征及预先训练的焦点预测模型进行焦点概率预测,得到所述语法单元的预测焦点概率。
所述焦点预测模型可以通过大量训练数据离线训练得到。
步骤305,根据所述语法单元的预测焦点概率计算韵律单元的预测焦点概率。
为了体现焦点在韵律中的连贯性,在本发明实施例中,将语法单元映射成韵律单元,以韵律单元作为焦点的承载单元进行焦点预测。
在计算韵律单元预测焦点概率时,有以下两种情况:
1)韵律单元对应多个语法单元,也就是说,一个韵律单元可以拆分成多个语法单元,在这种情况下,可以将对应的多个语法单元的预测焦点概率进行融合(比如加权组合),得到韵律单元的预测焦点概率,所述加权组合计算方法如下式(3)所示:
其中,Nsyn为韵律单元拆分的语法单元个数,αj为每个语法单元的预测焦点概率的权重,并且具体取值根据经验或实验结果进行设定,Pj为第j个语法单元预测焦点概率。
如韵律单元“黑眼睛”对应的语法单元可以拆分成两个语法单元“黑/a眼睛/n”,则韵律单元“黑眼睛”的预测焦点概率为:
需要说明的是,在这种情况下,如果拆分的语法单元是无意义的单元,如停止词“的”,在计算韵律单元的预测焦点概率时,可以直接将该语法单元忽略掉。
当然,还可以有其它融合方式,比如选择与当前韵律单元最相近的语法单元的预测焦点概率作为韵律单元的预测焦点概率等,对此本发明实施例不做限定。
2)韵律单元对应一个语法单元,则将所述语法单元的预测焦点概率作为所述韵律单元的预测焦点概率。
如韵律单元“政权”对应的语法单元为“国家政权”,所述韵律单元不需要拆分,则韵律单元“政权”的预测焦点概率为:
P("政权"是焦点)=P("国家政权"是焦点)
步骤306,根据所述韵律单元边界预测概率和所述韵律单元的预测焦点概率计算韵律单元焦点概率。
当韵律单元边界预测概率越低时,韵律单元的划分越不合理,为了防止划分不合理的韵律单元被预测成焦点。本发明实施例综合考虑了韵律单元边界预测概率和韵律单元预测焦点概率来计算韵律单元焦点概率Prhyfoc
具体地,可以使用左右边界预测概率中的任意一个,或者左右边界预测概率都使用。如下式(4)为使用韵律单元左右边界预测概率的计算方法,如果只使用其中一个边界预测概率,只需要去掉不使用的即可。
Prhyfoc=Pbound1*Prhy*Pbound2 (4)
其中,Pbound1为当前韵律单元的左边界概率,Pbound2为当前韵律单元的右边界概率,Prhy为当前韵律单元的预测焦点概率。
如韵律分析结果“绝对的*王权#才是*国家*政权的*真正*目标”,以韵律单元“绝对的”为例,使用Pbound1和Pbound2分别表示韵律单元“绝对的”左边界预测概率和韵律单元右边界预测概率,Prhy为韵律单元“绝对的”预测焦点概率。例如,Pbound1=1,Pbound2=0.9,Prhy=0.4,则韵律单元“绝对的”是焦点的概率为Prhyfoc=1*0.9*0.4=0.36。
步骤307,根据所述韵律单元焦点概率确定文本焦点。
具体地,可以设置焦点预测阈值,如果所述韵律单元的预测焦点概率大于该阈值,则确定所述韵律单元为焦点,否则为非焦点,具体如下式所示:
其中,I为焦点预测结果,1表示当前韵律单元是焦点,0表示当前韵律单元不是焦点,σ为焦点预测阈值,一般可以根据实验结果确定其取值。
本发明实施例确定文本焦点的方法,不仅提高了焦点预测的准确性,而且,该实施例使用韵律单元作为焦点的承载单元,综合考虑了焦点的预测概率和韵律单元的边界预测概率进行焦点预测,充分体现了焦点在语流中的韵律连续性,使得确定的焦点更符合人类语言表达的特点。
相应地,本发明实施例还提供一种确定文本焦点的系统,如图4所示,是该系统的一种结构示意图。
在该实施例中,所述系统包括:
接收模块401,用于接收待处理文本;
预处理模块402,用于对所述文本进行预处理,所述预处理包括:对所述文本进行分词、词性标注及字音转换;
特征提取模块403,用于提取预处理后的文本中所有语法单元的文本特征,所述文本特征包括:低层文本特征、统计特征及句法特征;
焦点预测模块404,用于利用提取的文本特征及预先训练的焦点预测模型进行焦点概率预测,得到预测焦点概率;
确定模块405,用于根据所述预测焦点概率确定文本焦点。
所述特征提取模块403具体可以根据当前语句的依存句法树获取所述句法特征,而且可以通过离线方式或在线方式计算所述统计特征。
在实际应用中,所述焦点预测模块404可以以语法单元作为焦点的承载单元,得到语法单元的预测焦点概率,即焦点预测模块404利用提取的文本特征及预先训练的焦点预测模型进行焦点概率预测,得到语法单元的预测焦点概率。相应地,确定模块405可以判断所述语法单元的预测焦点概率是否大于设定的阈值,如果是,则确定所述语法单元为焦点,否则为非焦点。
另外,所述焦点预测模块404还可以以韵律单元作为焦点的承载单元,得到韵律单元的焦点概率。
具体地,所述焦点预测模块404包括:
预测单元,用于利用提取的文本特征及预先训练的焦点预测模型进行焦点概率预测,得到语法单元的预测焦点概率;
第一计算单元,用于根据所述语法单元的预测焦点概率计算韵律单元的预测焦点概率。具体可以在所述韵律单元对应多个语法单元时,融合所述多个语法单元的预测焦点概率得到韵律单元的预测焦点概率;在所述韵律单元对应一个语法单元时,将所述语法单元的预测焦点概率作为所述韵律单元的预测焦点概率。
相应地,所述确定模块405包括:
第二计算单元,用于根据所述韵律单元边界预测概率和所述韵律单元的预测焦点概率计算韵律单元焦点概率。
判断单元,用于判断所述韵律单元焦点概率是否大于设定的阈值,如果是,则确定所述韵律单元为焦点,否则为非焦点。
需要说明的是,上述两个阈值可以设置为相同,也可以不同。
本发明实施例确定文本焦点的系统,不仅采用了传统方法中的低层文本特征,而且还利用了非低层的统计特征及句法特征,大大提高了焦点预测的准确性。
进一步地,使用韵律单元作为焦点的承载单元,综合考虑了焦点的预测概率和韵律单元的边界预测概率进行焦点预测,充分体现了焦点在语流中的韵律连续性,使得确定的焦点更符合人类语言表达的特点。
本发明实施例的方法及系统可以应用在自然语言处理、语音合成等领域。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (11)

1.一种确定文本焦点的方法,其特征在于,包括:
接收待处理文本;
对所述文本进行预处理,所述预处理包括:对所述文本进行分词、词性标注、字音转换以及得到每个语句的韵律单元;
提取预处理后的文本中所有语法单元的文本特征,所述文本特征包括:低层文本特征、统计特征及句法特征;
利用提取的文本特征及预先训练的焦点预测模型进行焦点概率预测,得到所述语法单元的预测焦点概率,并根据所述语法单元的预测焦点概率得到所述韵律单元的预测焦点概率;
根据所述韵律单元的预测焦点概率确定文本焦点。
2.根据权利要求1所述的方法,其特征在于,
所述低层文本特征包括:词性、声调、词面、词长、前向位置、后向位置、复合文本特征;
所述统计特征包括:当前语法单元在语料库中是焦点的概率P1和语料库中焦点是当前语法单元的概率P2
所述句法特征包括:当前语句的依存句法树中当前节点的高度、当前节点的从属词个数、当前节点与其父节点间的依存关系、当前节点与其父节点之间的依存距离,所述依存句法树中的节点表示语法单元,树中的边表示语法单元之间的依存关系。
3.根据权利要求2所述的方法,其特征在于,通过离线方式或在线方式计算所述统计特征。
4.根据权利要求2所述的方法,其特征在于,根据当前语句的依存句法树获取所述句法特征。
5.根据权利要求1至4任一项所述的方法,其特征在于,
所述对所述文本进行预处理还包括:对分词后的文本进行韵律分析,得到所述文本中每个语句的韵律单元及韵律单元边界预测概率;
所述根据所述韵律单元的预测焦点概率确定文本焦点包括:
根据所述韵律单元边界预测概率和所述韵律单元的预测焦点概率计算韵律单元焦点概率;
如果所述韵律单元焦点概率大于设定的阈值,则确定所述韵律单元为焦点,否则为非焦点。
6.根据权利要求5所述的方法,其特征在于,所述根据所述语法单元的预测焦点概率得到所述韵律单元的预测焦点概率包括:
如果韵律单元对应多个语法单元,则融合所述多个语法单元的预测焦点概率得到韵律单元的预测焦点概率;
如果韵律单元对应一个语法单元,则将所述语法单元的预测焦点概率作为所述韵律单元的预测焦点概率。
7.一种确定文本焦点的系统,其特征在于,包括:
接收模块,用于接收待处理文本;
预处理模块,用于对所述文本进行预处理,所述预处理包括:对所述文本进行分词、词性标注、字音转换以及得到每个语句的韵律单元;
特征提取模块,用于提取预处理后的文本中所有语法单元的文本特征,所述文本特征包括:低层文本特征、统计特征及句法特征;
焦点预测模块,用于利用提取的文本特征及预先训练的焦点预测模型进行焦点概率预测,得到所述语法单元的预测焦点概率,并根据所述语法单元的预测焦点概率得到所述韵律单元的预测焦点概率;
确定模块,用于根据所述韵律单元的预测焦点概率确定文本焦点。
8.根据权利要求7所述的系统,其特征在于,所述特征提取模块通过离线方式或在线方式计算所述统计特征。
9.根据权利要求7所述的系统,其特征在于,所述特征提取模块根据当前语句的依存句法树获取所述句法特征。
10.根据权利要求7至9任一项所述的系统,其特征在于,所述预处理模块具体还用于对分词后的文本进行韵律分析,得到所述文本中每个语句的韵律单元及韵律单元边界预测概率;
所述焦点预测模块具体包括:
第一计算单元,用于根据所述语法单元的预测焦点概率计算韵律单元的预测焦点概率;
所述确定模块具体包括:
第二计算单元,用于根据所述韵律单元边界预测概率和所述韵律单元的预测焦点概率计算韵律单元焦点概率;
判断单元,具体用于判断所述韵律单元焦点概率是否大于设定的阈值,如果是,则确定所述韵律单元为焦点,否则为非焦点。
11.根据权利要求10所述的系统,其特征在于,
所述第一计算单元,具体用于在所述韵律单元对应多个语法单元时,融合所述多个语法单元的预测焦点概率得到韵律单元的预测焦点概率;在所述韵律单元对应一个语法单元时,将所述语法单元的预测焦点概率作为所述韵律单元的预测焦点概率。
CN201510096777.7A 2015-03-04 2015-03-04 确定文本焦点的方法及系统 Active CN105988978B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510096777.7A CN105988978B (zh) 2015-03-04 2015-03-04 确定文本焦点的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510096777.7A CN105988978B (zh) 2015-03-04 2015-03-04 确定文本焦点的方法及系统

Publications (2)

Publication Number Publication Date
CN105988978A CN105988978A (zh) 2016-10-05
CN105988978B true CN105988978B (zh) 2019-05-28

Family

ID=57038255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510096777.7A Active CN105988978B (zh) 2015-03-04 2015-03-04 确定文本焦点的方法及系统

Country Status (1)

Country Link
CN (1) CN105988978B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776544B (zh) * 2016-11-24 2020-05-05 四川无声信息技术有限公司 人物关系识别方法及装置和分词方法
CN106910501B (zh) * 2017-02-27 2019-03-01 腾讯科技(深圳)有限公司 文本实体提取方法及装置
CN109033105B (zh) * 2017-06-09 2022-03-01 北京国双科技有限公司 获取裁判文书焦点的方法和装置
CN111159526B (zh) * 2019-12-26 2023-04-07 腾讯科技(深圳)有限公司 查询语句处理方法、装置、设备及存储介质
CN114490939B (zh) * 2022-01-25 2022-09-02 北京华宇元典信息服务有限公司 争议焦点推荐方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777347A (zh) * 2009-12-07 2010-07-14 中国科学院自动化研究所 一种模型互补的汉语重音识别方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221B (zh) * 2009-02-17 2012-05-30 北京大学 一种用于信息检索的查询语句分析方法与系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777347A (zh) * 2009-12-07 2010-07-14 中国科学院自动化研究所 一种模型互补的汉语重音识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于统计与语法分析的关键词提取;吴强;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140415;第1页第5段-第2页第2段。第6页第3段-第9页第3段,第12页第3段-第13页第3段,第30页第5段-第32页第6段,第39页第1段-第45页第1段以及图2.1、图4.7 *

Also Published As

Publication number Publication date
CN105988978A (zh) 2016-10-05

Similar Documents

Publication Publication Date Title
CN107330011B (zh) 多策略融合的命名实体的识别方法及装置
CN104050160B (zh) 一种机器与人工翻译相融合的口语翻译方法和装置
CN105988978B (zh) 确定文本焦点的方法及系统
CN110516067A (zh) 基于话题检测的舆情监控方法、系统及存储介质
CN104881458B (zh) 一种网页主题的标注方法和装置
CN111767741A (zh) 一种基于深度学习和tfidf算法的文本情感分析方法
CN110781663B (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN109885670A (zh) 一种面向话题文本的交互注意力编码情感分析方法
WO2019165678A1 (zh) 一种慕课的关键词提取方法
CN108628828A (zh) 一种基于自注意力的观点及其持有者的联合抽取方法
CN105551485B (zh) 语音文件检索方法及系统
CN102929860B (zh) 一种基于上下文语境的中文分句情感极性判别方法
CN109002473A (zh) 一种基于词向量与词性的情感分析方法
CN105183717A (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
CN105404621A (zh) 一种用于盲人读取汉字的方法及系统
CN107133259A (zh) 一种搜索方法和装置
Chen et al. Spoken Lecture Summarization by Random Walk over a Graph Constructed with Automatically Extracted Key Terms.
CN110852040B (zh) 一种标点预测模型训练方法及文本标点确定方法
CN109086355A (zh) 基于新闻主题词的热点关联关系分析方法及系统
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN110851601A (zh) 基于分层注意力机制的跨领域情感分类系统及方法
CN111489746A (zh) 一种基于bert的电网调度语音识别语言模型构建方法
CN110287405A (zh) 情感分析的方法、装置和存储介质
CN105354184B (zh) 一种使用优化的向量空间模型实现文档自动分类的方法
CN117271736A (zh) 一种问答对的生成方法和系统、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant