CN102955853A - 一种跨语言文摘的生成方法及装置 - Google Patents
一种跨语言文摘的生成方法及装置 Download PDFInfo
- Publication number
- CN102955853A CN102955853A CN2012104341059A CN201210434105A CN102955853A CN 102955853 A CN102955853 A CN 102955853A CN 2012104341059 A CN2012104341059 A CN 2012104341059A CN 201210434105 A CN201210434105 A CN 201210434105A CN 102955853 A CN102955853 A CN 102955853A
- Authority
- CN
- China
- Prior art keywords
- language
- language sentence
- sentence
- keyword
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种跨语言文摘的生成方法及装置,其中跨语言文摘生成方法包括:A.获取与用户输入的关键词匹配的第一语言检索结果页;B.将所述检索结果页中的第一语言句子翻译为第二语言句子,并根据第二语言句子的翻译置信度生成所述检索结果页的第二语言页面摘要。通过上述方式,本发明能够增强跨语言文摘的可读性。
Description
【技术领域】
本发明涉及自然语言处理技术,特别涉及一种跨语言文摘的生成方法及装置。
【背景技术】
全球国际化趋势的推进使得人们可以更广泛地选择数据来源。在这个背景下,人们在搜索引擎上查询的内容已经不限于母语,同时希望得到其它语言的搜索结果。例如,一个中国用户可能对《星球大战》系列的电影感兴趣,希望了解更多相关的信息。因此可能会输入“star war”来获取英文相关的信息。
传统的搜索引擎在向用户返回检索结果页面时,将网页标题,以及网页片段或网页摘要呈现给用户,其中网页片段复制自原始网页,而网页摘要通过摘要生成技术从原始网页中提取得到。用户通过网页片段或网页摘要可以快速了解检索结果页面的主要信息,方便选择需要的检索结果页面点击进入。
在跨语言检索时,一个母语为中文的用户从英文中获取信息的能力远远不及从中文中获取信息的能力。如果采用上述方式生成英文检索结果页的英文摘要,则摘要对用户的作用将大为降低。
在跨语言检索时,为了更好地帮助用户了解检索结果页面的主要内容,现有技术提出了从非母语页面中提取页面摘要并翻译为用户母语展示给用户的方法,但是由于在生成页面摘要的时候没有考虑页面摘要的翻译质量,这种方法得到的跨语言文摘的可读性较差。
【发明内容】
本发明所要解决的技术问题是提供一种跨语言文摘的生成方法及装置,以解决现有技术生成的跨语言文摘可读性较差的问题。
本发明为解决技术问题而采用的技术方案是提供一种跨语言文摘的生成方法,包括:A.获取与用户输入的关键词匹配的第一语言检索结果页;B.将所述检索结果页中的第一语言句子翻译为第二语言句子,并根据第二语言句子的翻译置信度生成所述检索结果页的第二语言页面摘要。
根据本发明之一优选实施例,所述步骤A包括:A1.判断输入的关键词是第一语言关键词还是第二语言关键词,当输入的关键词是第一语言关键词时,执行步骤A2,否则将输入的关键词翻译为第一语言关键词,并执行步骤A2;A2.使用第一语言关键词在第一语言页面索引库中进行查询,以获得匹配的第一语言检索结果页。
根据本发明之一优选实施例,所述步骤B包括:将所述检索结果页中的文本按照语义相似度进行聚类;将各类别中的第一语言句子翻译为第二语言句子;分别从各类别中选取综合得分满足要求的第二语言句子作为页面摘要,其中影响第二语言句子综合得分的特征包括第二语言句子的翻译置信度。
根据本发明之一优选实施例,影响第二语言句子综合得分的特征还至少包括以下一项:第二语言句子所对应的第一语言句子的主题重要性、第二语言句子所对应的第一语言句子的主题分散度、第二语言句子所对应的第一语言句子与输入的关键词之间的匹配程度。
根据本发明之一优选实施例,所述步骤B包括:将所述检索结果页中的文本按照语义相似度进行聚类;分别从各类别中选取第一语言句子,并将选取的第一语言句子翻译为第二语言句子;分别从各类别中选取翻译置信度满足要求的第二语言句子作为页面摘要。
根据本发明之一优选实施例,分别从各类别中选取第一语言句子的步骤包括:分别从各类别中选取代表性得分满足要求的第一语言句子,其中影响第一语言句子代表性得分的特征至少包括以下一项:第一语言句子的主题重要性、第一语言句子的主题分散度、第一语言句子与输入的关键词之间的匹配程度。
根据本发明之一优选实施例,影响第二语言句子的翻译置信度的特征至少包括以下一项:第二语言句子的歧义消解性、第二语言句子的流畅程度。
本发明还提供了一种跨语言文摘的生成方法,包括:A.预先将第一语言页面翻译为第二语言页面,并建立第二语言页面的索引库;B.当用户输入关键词进行搜索时,利用所述索引库获取与输入的关键词匹配的第二语言检索结果页;C.根据所述检索结果页中第二语言句子的翻译置信度生成所述检索结果页的第二语言页面摘要。
根据本发明之一优选实施例,所述步骤C包括:将所述检索结果页中的文本按照语义相似度进行聚类;分别从各类别中选取综合得分满足要求的第二语言句子作为页面摘要,其中影响第二语言句子综合得分的特征包括第二语言句子的翻译置信度。
根据本发明之一优选实施例,影响第二语言句子综合得分的特征还至少包括以下一项:第二语言句子的主题重要性、第二语言句子的主题分散度、第二语言句子与输入的关键词之间的匹配程度。
根据本发明之一优选实施例,影响第二语言句子的翻译置信度的特征至少包括以下一项:第二语言句子的歧义消解性、第二语言句子的流畅程度。
本发明还提供了一种跨语言文摘的生成装置,包括:检索单元,用于获取与用户输入的关键词匹配的第一语言检索结果页;抽取单元,用于将所述检索结果页中的第一语言句子翻译为第二语言句子,并根据第二语言句子的翻译置信度生成所述检索结果页的第二语言页面摘要。
根据本发明之一优选实施例,所述检索单元包括:判断单元,用于判断输入的关键词是第一语言关键词还是第二语言关键词,当输入的关键词是第一语言关键词时,触发查询单元执行,否则触发词翻译单元执行;词翻译单元,用于将输入的关键词翻译为第一语言关键词,并触发查询单元执行;查询单元,用于使用第一语言关键词在第一语言页面索引库中进行查询,以获得匹配的第一语言检索结果页。
根据本发明之一优选实施例,所述抽取单元包括:聚类单元,用于将所述检索结果页中的文本按照语义相似度进行聚类;句翻译单元,用于将各类别中的第一语言句子翻译为第二语言句子;选取单元,用于分别从各类别中选取综合得分满足要求的第二语言句子作为页面摘要,其中影响第二语言句子综合得分的特征包括第二语言句子的翻译置信度。
根据本发明之一优选实施例,影响第二语言句子综合得分的特征还至少包括以下一项:第二语言句子所对应的第一语言句子的主题重要性、第二语言句子所对应的第一语言句子的主题分散度、第二语言句子所对应的第一语言句子与输入的关键词之间的匹配程度。
根据本发明之一优选实施例,所述抽取单元包括:聚类单元,用于将所述检索结果页中的文本按照语义相似度进行聚类;第一选取单元,用于分别从各类别中选取第一语言句子;句翻译单元,用于将选取的第一语言句子翻译为第二语言句子;第二选取单元,用于分别从各类别的第二语言句子中选取翻译置信度满足要求的第二语言句子作为页面摘要。
根据本发明之一优选实施例,所述第一选取单元选取第一语言句子的方式包括:分别从各类别中选取代表性得分满足要求的第一语言句子,其中影响代表性得分的特征至少包括以下一项:第一语言句子的主题重要性、第一语言句子的主题分散度、第一语言句子与输入的关键词之间的匹配程度。
根据本发明之一优选实施例,影响第二语言句子的翻译置信度的特征至少包括以下一项:第二语言句子的歧义消解性、第二语言句子的流畅程度。
本发明还提供了一种跨语言文摘的生成装置,包括:建库单元,用于预先将第一语言页面翻译为第二语言页面,并建立第二语言页面索引库;检索单元,用于当用户输入关键词进行搜索时,利用所述索引库获取与输入的关键词匹配的第二语言检索结果页;抽取单元,用于根据所述检索结果页中第二语言句子的翻译置信度生成所述检索结果页的第二语言页面摘要。
根据本发明之一优选实施例,所述抽取单元包括:聚类单元,用于将所述检索结果页中的文本按照语义相似度进行聚类;选取单元,用于分别从各类别中选取综合得分满足要求的第二语言句子作为页面摘要,其中影响第二语言句子综合得分的特征包括第二语言句子的翻译置信度。
根据本发明之一优选实施例,影响第二语言句子综合得分的特征还至少包括以下一项:第二语言句子的主题重要性、第二语言句子的主题分散度、第二语言句子与输入的关键词之间的匹配程度。
根据本发明之一优选实施例,影响第二语言句子的翻译置信度的特征至少包括以下一项:第二语言句子的歧义消解性、第二语言句子的流畅程度。
由以上技术方案可以看出,本发明在跨语言文摘的生成过程中,通过利用语料的翻译置信度来确定最终被选为文摘的句子,可以保证生成的文摘在满足对原文概括性要求的同时,增强可读性,从而为用户在跨语言检索当中提供更好的帮助。
【附图说明】
图1为本发明中跨语言文摘的生成方法的实施例一的流程示意图;
图2为本发明中跨语言文摘的生成方法的实施例二的流程示意图;
图3为本发明中跨语言文摘的生成装置的实施例一的结构示意框图;
图4为本发明中检索单元301的一个实施例的结构示意框图;
图5为本发明中抽取单元302的一个实施例的结构示意框图;
图6为本发明中抽取单元302的又一个实施例的结构示意框图;
图7为本发明中跨语言文摘的生成装置的实施例的又一个实施例的结构示意框图;
图8为本发明中抽取单元403的实施例的结构示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
请参考图1,图1为本发明中跨语言文摘的生成方法的实施例一的流程示意图。如图1所示,该实施例包括:
步骤S101:获取与用户输入的关键词匹配的第一语言检索结果页。
步骤S102:将检索结果页中的第一语言句子翻译为第二语言句子,并根据第二语言句子的翻译置信度生成检索结果页的第二语言页面摘要。
下面对上述步骤进行具体说明。
在一种实施方式中,步骤S101包括:
步骤S1011:判断用户输入的关键词是第一语言关键词还是第二语言关键词,当输入的关键词是第一语言关键词时,执行步骤S1012,否则将输入的关键词翻译为第一语言关键词,并执行步骤S1012。
步骤S1012:使用第一语言关键词在第一语言页面索引库中进行查询,以获得匹配的第一语言检索结果页。
例如在一个跨语言搜索引擎中,源语言预先被设定为中文,目标语言预先被设定为英文,则当用户输入“star war”时,直接使用“star war”在英文页面索引库中进行查询,而如果当用户输入“星球大战”时,首先将“星球大战”翻译为“star war”,然后再使用“star war”在英文页面索引库中进行查询。
上述第一语言页面索引库,可以是预先利用搜索爬虫抓取第一语言页面后建立的索引库,也可以是第三方搜索引擎建立的第一语言页面索引库,本发明对此不做限制。
在一种实施方式中,步骤S102包括:
步骤S1021:将检索结果页中的文本按照语义相似度进行聚类。
将文本按照语义相似度进行聚类,通常是以段为单位进行的,例如英文检索结果页中包含20个段落,将这20个英文段落按照语义相似度进行聚类,得到5个类别,其中每个类别包含若干个段落,则在同类段落中的句子就属于一类。由于现有技术中有多种方法可以对文本按照语义相似度进行聚类,在此不再赘述。
步骤S1022:将各类别中的第一语言句子翻译为第二语言句子。即通过机器自动将每个类别中的第一语言句子都翻译为第二语言句子。
步骤S1023:分别从各类别中选取综合得分满足要求的第二语言句子作为页面摘要。
可通过一个训练好的综合打分模型对每个第二语言句子进行打分,从而确定每个第二语言句子的综合得分。
综合打分模型的每个参数对应一个影响第二语言句子综合得分的特征。在使用该模型时,先将待打分的第二语言句子的各个特征值提取出来,然后输入到综合打分模型,综合打分模型利用相关参数进行计算,就可以输出这个第二语言句子的综合得分。
本发明不限定综合打分模型的类型,可以使用人工神经网络模型。在使用标注语料对该模型进行训练后,即可用于在步骤S1023中对各个第二语言句子进行打分。
下面将介绍本实施例中影响第二语言句子综合得分的各个特征。
特征一:第二语言句子的翻译置信度。翻译置信度越高,最终的综合得分就会越高。
下面给出一个计算第二语言句子T的翻译置信度的实施例。其中T对应翻译前的第一语言句子为S。请参考公式(1):
其中,p(T|S)表示句子T的翻译置信度,hi(S,T)表示从句子S和T构成的句对中可以得到的第i个特征函数,λi表示第i个特征函数对应的权重。
特征函数是根据特征构造的函数。本实施例中,用于构造特征函数的特征,即影响第二语言句子的翻译置信度的特征可以包括:第二语言句子的歧义消解性及第二语言句子的流畅程度。
以S和T为例,第二语言句子T的歧义消解性,指的是句子S中是否存在多种翻译可能的词,且该词在T中的翻译可能与其他翻译可能相比超过设定阈值这一特性。作为一种实施方式,根据歧义消解性这一特征构造特征函数,该函数可定义为:如果T中存在歧义消解性,则函数值取1,否则取0。例如,S中包含词语“drug”,该词可翻译为“毒品”或“药品”,如果在T中该词被翻译为“药品”的可能为90%,翻译为“毒品”的可能为10%,两者之比为9,而设定阈值为3,则可以确定h歧义消解(S,T)=1,如果在T中“drug”被翻译为“药品”的可能性为50%,被翻译为“毒品”的可能性为50%,两者之比为1,则可以确定h歧义消解(S,T)=0。
第二语言句子T的流畅程度,指的是T在统计语言模型评估下的出现概率。作为一种实施方式,根据流畅程度这一特征构造特征函数,该函数可定义为:如果T由统计语言模型打分的分值超过设定阈值,则函数值取1,否则取0。
除此之外,影响第二语言句子的翻译置信度的特征,还可以是现有机器翻译技术中用于确定翻译置信度的其他特征,本发明对此并不限制。
在公式(1)中的λi可预先通过最小错误率训练得到,然后按照公式(1)即可确定每个第二语言句子的翻译置信度。
影响第二语言句子综合得分的特征,还可以是下面特征:
特征二:第二语言句子所对应的第一语言句子的主题重要性。主题重要性越高,最终的综合得分就会越高。
可以用第一语言句子S的TF-IDF(term frequency-inverse documentfrequency)值来衡量S的主题重要性。
特征三:第二语言句子所对应的第一语言句子的主题分散度。主题分散度越高,最终的综合得分就会越高。
第一语言句子S的主题分散度可由两个值共同衡量,一个是S所属类包含的段落数,一个是S与已提取为摘要的第二语言句子所对应的第一语言句子之间的差异度。S所属类包含的段落数越多,且S与已提取为摘要的第二语言句子所对应的第一语言句子之间的差异度越大,则S的主题分散度就越高。这个特征主要是为了保证作为摘要的第二语言句子所对应的第一语言句子能够全面反映页面的各个主题。一个类中的段落数多,则应该保证提取的句子数也多,但是为了保证提取的句子不都是这一类中的同一段落的,还要考虑待提取为摘要的句子与已提取为摘要的句子之间的差异度。
特征四:第二语言句子所对应的第一语言句子与输入的关键词之间的匹配度。
第一语言句子与用户输入的关键词之间的匹配程度,可由第一语言句子是否包含该关键词或该关键词的同义词来确定。例如关键词为“星球大战”或“star war”,如果第一语言句子包含“star war”,则可以认为这个第一语言句子与关键词之间的匹配程度较高。
除此之外,影响第二语言句子综合得分的特征还可以是其他特征,本发明对此不做限制。
上面给出了步骤S102的一种实施方式,下面给出步骤S102的另一种实施方式。
在该实施方式中,步骤S102包括:
步骤S102a:将检索结果页中的文本按照语义相似度进行聚类。
步骤S102b:分别从各类别中选取第一语言句子,并将选取的第一语言句子翻译为第二语言句子。
步骤S102c:分别从各类别中选取翻译置信度满足要求的第二语言句子作为页面摘要。翻译置信度的计算方式可采用与步骤S102的前一个实施方式相同的方式,这里不再重复。
其中步骤S102a与步骤S1021类似。步骤S102b中在选取第一语言句子时,可以随机选取,但作为优选的,可将代表性得分满足要求的第一语言句子选取出来。步骤S102b中选取第一语言句子的过程,可视为选取摘要草稿的过程,将具有代表性的第一语言句子选取出来进行翻译,可以减少总共需要翻译的句子数量,从而提高摘要生成的效率。
与步骤S102的前一个实施方式类似的,代表性得分也可以通过一个打分模型得到。其中影响第一语言句子代表性得分的特征至少包括以下一项:第一语言句子的主题重要性、第一语言句子的主题分散度、第一语言句子与输入的关键词之间的匹配程度。其中各特征的含义及计算方式在步骤S102的前一个实施方式中已经介绍,这里不再重复。
请参考图2,图2为本发明中跨语言文摘的生成方法的实施例二的流程示意图。如图2所示,该实施例包括:
步骤S201:预先将第一语言页面翻译为第二语言页面,并建立第二语言页面的索引库。
步骤S202:当用户输入关键词进行搜索时,利用上述索引库获取与输入的关键词匹配的第二语言检索结果页。
步骤S203:根据检索结果页中第二语言句子的翻译置信度生成检索结果页的第二语言页面。
本实施例与实施例一的最大区别在于,翻译过程并不是在线上进行的,而是预先在线下进行,这样可以节约线上时间,加快摘要生成的速度。在线下预先将第一语言页面通过机器翻译为第二语言页面,并建立相应的索引库,这样线上接收到用户输入的关键词时,就可以得到匹配的第二语言检索结果页。例如在线下时,所有与“star war”有关的页面均被翻译为中文页面,中文页面中与“star war”对应的词语已被翻译为“星球大战”。在线上用“星球大战”进行搜索,就可以得到已翻译的与“星球大战”相关的中文页面。
在本实施例中,第二语言句子的翻译置信度的计算方式与实施例一相同,其中影响第二语言句子的翻译置信度的特征至少包括以下一项:第二语言句子的歧义消解性、第二语言句子的流畅程度。具体的计算过程,可以在步骤S201的线下翻译过程中实施,也可以在步骤S203的线上生成摘要过程中实施。
本实施例中,步骤S203具体包括:
步骤S2031:将检索结果页中的文本按照语义相似度进行聚类。
步骤S2032:分别从各类别中选取综合得分满足要求的第二语言句子作为页面摘要。
上述步骤与实施例一中的步骤S1021及步骤S1023是类似的。但是由于本实施例中,步骤S203中不再需要翻译,因此在确定影响第二语言句子综合得分的特征时,原采用第一语言句子计算的特征可相应改为用第二语言句子进行计算。即影响第二语言句子综合得分的特征除了包括第二语言句子的翻译置信度,还可以包括以下至少一项:第二语言句子的主题重要性、第二语言句子的主题分散度、第二语言句子与输入关键词之间的匹配程度。
请参考图3,图3为本发明中跨语言文摘的生成装置的实施例一的结构示意框图。如图3所示,该实施例包括:检索单元301、抽取单元302。
其中检索单元301,用于获取与用户输入的关键词匹配的第一语言检索结果页。
抽取单元302,用于将检索结果页中的第一语言句子翻译为第二语言句子,并根据第二语言句子的翻译置信度生成检索结果页的第二语言页面摘要。其中影响第二语言句子的翻译置信度的特征至少包括以下一项:第二语言句子的歧义消解性、第二语言句子的流畅程度。
请参考图4,图4为本发明中检索单元301的一个实施例的结构示意框图。如图4所示,该实施例包括:判断单元3011、词翻译单元3012及查询单元3013。
其中判断单元3011,用于判断输入的关键词是第一语言关键词还是第二语言关键词,当输入的关键词是第一语言关键词时,触发查询单元3013执行,否则触发词翻译单元3012执行。
词翻译单元3012,用于将输入的关键词翻译为第一语言关键词,并触发查询单元3013执行。
查询单元3013,用于使用第一语言关键词在第一语言页面索引库中进行查询,以获得匹配的第一语言检索结果页。
请参考图5,图5为本发明中抽取单元302的一个实施例的结构示意框图。如图5所示,该实施例中,抽取单元302包括:聚类单元3021、句翻译单元3022及选取单元3023。
其中聚类单元3021,用于将检索结果页中的文本按照语义相似度进行聚类。
句翻译单元3022,用于将各类别中的第一语言句子翻译为第二语言句子。
选取单元3023,用于分别从各类别中选取综合得分满足要求的第二语言句子作为页面摘要。其中影响第二语言句子综合得分的特征包括第二语言句子的翻译置信度。进一步地,影响第二语言句子综合得分的特征还至少包括以下一项:第二语言句子所对应的第一语言句子的主题重要性、第二语言句子所对应的第一语言句子的主题分散度、第二语言句子所对应的第一语言句子与输入的关键词之间的匹配程度。
请参考图6,图6为本发明中抽取单元302的又一个实施例的结构示意框图。如图6所示,该实施例包括:聚类单元302a、第一选取单元302b、句翻译单元302c及第二选取单元302d。
其中聚类单元302a,用于将检索结果页中的各个第一语言句子按照语义相似度进行聚类。
第一选取单元302b,用于分别从各类别中选取第一语言句子。具体地,第一选取单元302b选取第一语言句子的方式包括:分别从各类别中选取代表性得分满足要求的第一语言句子,其中影响代表性得分的特征至少包括以下一项:第一语言句子的主题重要性、第一语言句子的主题分散度、第一语言句子与输入的关键词之间的匹配程度。
句翻译单元302c,用于将选取的第一语言句子翻译为第二语言句子。
第二选取单元302d,用于分别从各类别的第二语言句子中选取翻译置信度满足要求的第二语言句子作为页面摘要。
请参考图7,图7为本发明中跨语言文摘的生成装置的实施例的又一个实施例的结构示意框图。如图7所示,该装置包括:建库单元401、检索单元402、抽取单元403。
其中建库单元401,用于预先将第一语言页面翻译为第二语言页面,并建立第二语言页面索引库。
检索单元402,用于当用户输入关键词进行搜索时,利用上述索引库获取与输入的关键词匹配的第二语言检索结果页。
抽取单元403,用于根据检索结果页中第二语言句子的翻译置信度生成检索结果页的第二语言页面摘要。其中影响第二语言句子的翻译置信度的特征至少包括以下一项:第二语言句子的歧义消解性、第二语言句子的流畅程度。
请参考图8,图8为本发明中抽取单元403的实施例的结构示意框图。如图8所示,该实施例包括:聚类单元4031、选取单元4032。
其中聚类单元4031,用于将检索结果页中的文本按照语义相似度进行聚类。
选取单元4032,用于分别从各类别中选取综合得分满足要求的第二语言句子作为页面摘要。其中影响第二语言句子综合得分的特征包括第二语言句子的翻译置信度。进一步地,影响第二语言句子综合得分的特征还至少包括以下一项:第二语言句子的主题重要性、第二语言句子的主题分散度、第二语言句子与输入的关键词之间的匹配程度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (22)
1.一种跨语言文摘的生成方法,包括:
A.获取与用户输入的关键词匹配的第一语言检索结果页;
B.将所述检索结果页中的第一语言句子翻译为第二语言句子,并根据第二语言句子的翻译置信度生成所述检索结果页的第二语言页面摘要。
2.根据权利要求1所述的方法,其特征在于,所述步骤A包括:
A1.判断输入的关键词是第一语言关键词还是第二语言关键词,当输入的关键词是第一语言关键词时,执行步骤A2,否则将输入的关键词翻译为第一语言关键词,并执行步骤A2;
A2.使用第一语言关键词在第一语言页面索引库中进行查询,以获得匹配的第一语言检索结果页。
3.根据权利要求1所述的方法,其特征在于,所述步骤B包括:
将所述检索结果页中的文本按照语义相似度进行聚类;
将各类别中的第一语言句子翻译为第二语言句子;
分别从各类别中选取综合得分满足要求的第二语言句子作为页面摘要,其中影响第二语言句子综合得分的特征包括第二语言句子的翻译置信度。
4.根据权利要求3所述的方法,其特征在于,影响第二语言句子综合得分的特征还至少包括以下一项:
第二语言句子所对应的第一语言句子的主题重要性、第二语言句子所对应的第一语言句子的主题分散度、第二语言句子所对应的第一语言句子与输入的关键词之间的匹配程度。
5.根据权利要求1所述的方法,其特征在于,所述步骤B包括:
将所述检索结果页中的文本按照语义相似度进行聚类;
分别从各类别中选取第一语言句子,并将选取的第一语言句子翻译为第二语言句子;
分别从各类别中选取翻译置信度满足要求的第二语言句子作为页面摘要。
6.根据权利要求5所述的方法,其特征在于,分别从各类别中选取第一语言句子的步骤包括:
分别从各类别中选取代表性得分满足要求的第一语言句子,其中影响第一语言句子代表性得分的特征至少包括以下一项:第一语言句子的主题重要性、第一语言句子的主题分散度、第一语言句子与输入的关键词之间的匹配程度。
7.根据权利要求1至6中任一权项所述的方法,其特征在于,影响第二语言句子的翻译置信度的特征至少包括以下一项:
第二语言句子的歧义消解性、第二语言句子的流畅程度。
8.一种跨语言文摘的生成方法,包括:
A.预先将第一语言页面翻译为第二语言页面,并建立第二语言页面的索引库;
B.当用户输入关键词进行搜索时,利用所述索引库获取与输入的关键词匹配的第二语言检索结果页;
C.根据所述检索结果页中第二语言句子的翻译置信度生成所述检索结果页的第二语言页面摘要。
9.根据权利要求8所述的方法,其特征在于,所述步骤C包括:
将所述检索结果页中的文本按照语义相似度进行聚类;
分别从各类别中选取综合得分满足要求的第二语言句子作为页面摘要,其中影响第二语言句子综合得分的特征包括第二语言句子的翻译置信度。
10.根据权利要求9所述的方法,其特征在于,影响第二语言句子综合得分的特征还至少包括以下一项:
第二语言句子的主题重要性、第二语言句子的主题分散度、第二语言句子与输入的关键词之间的匹配程度。
11.根据权利要求8至10中任一权项所述的方法,其特征在于,影响第二语言句子的翻译置信度的特征至少包括以下一项:
第二语言句子的歧义消解性、第二语言句子的流畅程度。
12.一种跨语言文摘的生成装置,包括:
检索单元,用于获取与用户输入的关键词匹配的第一语言检索结果页;
抽取单元,用于将所述检索结果页中的第一语言句子翻译为第二语言句子,并根据第二语言句子的翻译置信度生成所述检索结果页的第二语言页面摘要。
13.根据权利要求12所述的装置,其特征在于,所述检索单元包括:
判断单元,用于判断输入的关键词是第一语言关键词还是第二语言关键词,当输入的关键词是第一语言关键词时,触发查询单元执行,否则触发词翻译单元执行;
词翻译单元,用于将输入的关键词翻译为第一语言关键词,并触发查询单元执行;
查询单元,用于使用第一语言关键词在第一语言页面索引库中进行查询,以获得匹配的第一语言检索结果页。
14.根据权利要求12所述的装置,其特征在于,所述抽取单元包括:
聚类单元,用于将所述检索结果页中的文本按照语义相似度进行聚类;
句翻译单元,用于将各类别中的第一语言句子翻译为第二语言句子;
选取单元,用于分别从各类别中选取综合得分满足要求的第二语言句子作为页面摘要,其中影响第二语言句子综合得分的特征包括第二语言句子的翻译置信度。
15.根据权利要求14所述的装置,其特征在于,影响第二语言句子综合得分的特征还至少包括以下一项:
第二语言句子所对应的第一语言句子的主题重要性、第二语言句子所对应的第一语言句子的主题分散度、第二语言句子所对应的第一语言句子与输入的关键词之间的匹配程度。
16.根据权利要求12所述的装置,其特征在于,所述抽取单元包括:
聚类单元,用于将所述检索结果页中的文本按照语义相似度进行聚类;
第一选取单元,用于分别从各类别中选取第一语言句子;
句翻译单元,用于将选取的第一语言句子翻译为第二语言句子;
第二选取单元,用于分别从各类别的第二语言句子中选取翻译置信度满足要求的第二语言句子作为页面摘要。
17.根据权利要求16所述的装置,其特征在于,所述第一选取单元选取第一语言句子的方式包括:
分别从各类别中选取代表性得分满足要求的第一语言句子,其中影响代表性得分的特征至少包括以下一项:第一语言句子的主题重要性、第一语言句子的主题分散度、第一语言句子与输入的关键词之间的匹配程度。
18.根据权利要求12至17中任一权项所述的装置,其特征在于,影响第二语言句子的翻译置信度的特征至少包括以下一项:
第二语言句子的歧义消解性、第二语言句子的流畅程度。
19.一种跨语言文摘的生成装置,包括:
建库单元,用于预先将第一语言页面翻译为第二语言页面,并建立第二语言页面索引库;
检索单元,用于当用户输入关键词进行搜索时,利用所述索引库获取与输入的关键词匹配的第二语言检索结果页;
抽取单元,用于根据所述检索结果页中第二语言句子的翻译置信度生成所述检索结果页的第二语言页面摘要。
20.根据权利要求19所述的装置,其特征在于,所述抽取单元包括:
聚类单元,用于将所述检索结果页中的文本按照语义相似度进行聚类;
选取单元,用于分别从各类别中选取综合得分满足要求的第二语言句子作为页面摘要,其中影响第二语言句子综合得分的特征包括第二语言句子的翻译置信度。
21.根据权利要求20所述的装置,其特征在于,影响第二语言句子综合得分的特征还至少包括以下一项:
第二语言句子的主题重要性、第二语言句子的主题分散度、第二语言句子与输入的关键词之间的匹配程度。
22.根据权利要求19至21中任一权项所述的装置,其特征在于,影响第二语言句子的翻译置信度的特征至少包括以下一项:
第二语言句子的歧义消解性、第二语言句子的流畅程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210434105.9A CN102955853B (zh) | 2012-11-02 | 2012-11-02 | 一种跨语言文摘的生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210434105.9A CN102955853B (zh) | 2012-11-02 | 2012-11-02 | 一种跨语言文摘的生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102955853A true CN102955853A (zh) | 2013-03-06 |
CN102955853B CN102955853B (zh) | 2019-05-28 |
Family
ID=47764659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210434105.9A Active CN102955853B (zh) | 2012-11-02 | 2012-11-02 | 一种跨语言文摘的生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102955853B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699672A (zh) * | 2013-12-30 | 2014-04-02 | 北京百度网讯科技有限公司 | 例句检索方法和装置 |
CN106874362A (zh) * | 2016-12-30 | 2017-06-20 | 中国科学院自动化研究所 | 多语言自动文摘方法 |
CN107450918A (zh) * | 2017-07-25 | 2017-12-08 | 上海青橙实业有限公司 | 字符串语言适配方法与装置 |
CN108255939A (zh) * | 2017-12-08 | 2018-07-06 | 北京搜狗科技发展有限公司 | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 |
CN108763197A (zh) * | 2018-05-10 | 2018-11-06 | 杭州依图医疗技术有限公司 | 一种医疗术语库的形成方法和装置 |
CN109255121A (zh) * | 2018-07-27 | 2019-01-22 | 中山大学 | 一种基于主题类的跨语言生物医学类学术论文信息推荐方法 |
CN111045578A (zh) * | 2018-10-12 | 2020-04-21 | 阿里巴巴集团控股有限公司 | 显示控制方法、显示控制装置、终端设备和电子设备 |
CN111382261A (zh) * | 2020-03-17 | 2020-07-07 | 北京字节跳动网络技术有限公司 | 摘要生成方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040216050A1 (en) * | 2001-01-29 | 2004-10-28 | Kabushiki Kaisha Toshiba | Translation apparatus and method |
CN101097576A (zh) * | 2006-06-28 | 2008-01-02 | 英业达股份有限公司 | 信息显示处理系统以及方法 |
WO2008106897A1 (en) * | 2007-03-05 | 2008-09-12 | I2S, Akciova Spolecnost | Information system for searching for language-independent data |
US20080288474A1 (en) * | 2007-05-16 | 2008-11-20 | Google Inc. | Cross-language information retrieval |
US20090083243A1 (en) * | 2007-09-21 | 2009-03-26 | Google Inc. | Cross-language search |
CN102207938A (zh) * | 2010-03-31 | 2011-10-05 | 北京金山软件有限公司 | 一种互译词条的获取方法及系统 |
CN102654867A (zh) * | 2011-03-02 | 2012-09-05 | 北京百度网讯科技有限公司 | 一种跨语言搜索中的网页排序方法和系统 |
-
2012
- 2012-11-02 CN CN201210434105.9A patent/CN102955853B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040216050A1 (en) * | 2001-01-29 | 2004-10-28 | Kabushiki Kaisha Toshiba | Translation apparatus and method |
CN101097576A (zh) * | 2006-06-28 | 2008-01-02 | 英业达股份有限公司 | 信息显示处理系统以及方法 |
WO2008106897A1 (en) * | 2007-03-05 | 2008-09-12 | I2S, Akciova Spolecnost | Information system for searching for language-independent data |
US20080288474A1 (en) * | 2007-05-16 | 2008-11-20 | Google Inc. | Cross-language information retrieval |
US20090083243A1 (en) * | 2007-09-21 | 2009-03-26 | Google Inc. | Cross-language search |
CN102207938A (zh) * | 2010-03-31 | 2011-10-05 | 北京金山软件有限公司 | 一种互译词条的获取方法及系统 |
CN102654867A (zh) * | 2011-03-02 | 2012-09-05 | 北京百度网讯科技有限公司 | 一种跨语言搜索中的网页排序方法和系统 |
Non-Patent Citations (1)
Title |
---|
庞观松: ""跨语言智能学术搜索系统设计与实现"", 《山东大学学报(工学版)》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699672A (zh) * | 2013-12-30 | 2014-04-02 | 北京百度网讯科技有限公司 | 例句检索方法和装置 |
CN106874362A (zh) * | 2016-12-30 | 2017-06-20 | 中国科学院自动化研究所 | 多语言自动文摘方法 |
CN106874362B (zh) * | 2016-12-30 | 2020-01-10 | 中国科学院自动化研究所 | 多语言自动文摘方法 |
CN107450918A (zh) * | 2017-07-25 | 2017-12-08 | 上海青橙实业有限公司 | 字符串语言适配方法与装置 |
CN108255939A (zh) * | 2017-12-08 | 2018-07-06 | 北京搜狗科技发展有限公司 | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 |
WO2019109664A1 (zh) * | 2017-12-08 | 2019-06-13 | 北京搜狗科技发展有限公司 | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 |
CN108255939B (zh) * | 2017-12-08 | 2020-02-14 | 北京搜狗科技发展有限公司 | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 |
CN108763197A (zh) * | 2018-05-10 | 2018-11-06 | 杭州依图医疗技术有限公司 | 一种医疗术语库的形成方法和装置 |
CN108763197B (zh) * | 2018-05-10 | 2021-11-09 | 上海依智医疗技术有限公司 | 一种医疗术语库的形成方法和装置 |
CN109255121A (zh) * | 2018-07-27 | 2019-01-22 | 中山大学 | 一种基于主题类的跨语言生物医学类学术论文信息推荐方法 |
CN111045578A (zh) * | 2018-10-12 | 2020-04-21 | 阿里巴巴集团控股有限公司 | 显示控制方法、显示控制装置、终端设备和电子设备 |
CN111382261A (zh) * | 2020-03-17 | 2020-07-07 | 北京字节跳动网络技术有限公司 | 摘要生成方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102955853B (zh) | 2019-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bengfort et al. | Applied text analysis with Python: Enabling language-aware data products with machine learning | |
CN102955853A (zh) | 一种跨语言文摘的生成方法及装置 | |
CN103390051B (zh) | 一种基于微博数据的话题发现与追踪方法 | |
Medelyan et al. | Mining meaning from Wikipedia | |
US8892550B2 (en) | Source expansion for information retrieval and information extraction | |
CN104933027A (zh) | 一种利用依存分析的开放式中文实体关系抽取方法 | |
US20110047166A1 (en) | System and methods of relating trademarks and patent documents | |
CN104268200A (zh) | 一种基于深度学习的非监督命名实体语义消歧方法 | |
CN104834735A (zh) | 一种基于词向量的文档摘要自动提取方法 | |
JP2013529805A (ja) | 検索方法、記憶媒体、同定方法、広告方法、処理方法及びシステム | |
Qiu et al. | Advanced sentiment classification of tibetan microblogs on smart campuses based on multi-feature fusion | |
Yıldırım et al. | Mastering Transformers: Build state-of-the-art models from scratch with advanced natural language processing techniques | |
CN102567306A (zh) | 一种不同语言间词汇相似度的获取方法及系统 | |
Wu et al. | Identification of web query intent based on query text and web knowledge | |
CN104462399A (zh) | 搜索结果的处理方法及装置 | |
Yan et al. | Response selection from unstructured documents for human-computer conversation systems | |
El Adlouni et al. | A multi-approach to community question answering | |
Skaggs et al. | Topic modeling for wikipedia link disambiguation | |
Lu et al. | Question answering system based on web | |
Guo et al. | Exploiting syntactic and semantic relationships between terms for opinion retrieval | |
Song et al. | Scalable distributed semantic network for knowledge management in cyber physical system | |
Prasad et al. | Document summarization and information extraction for generation of presentation slides | |
Ma et al. | Combining n-gram and dependency word pair for multi-document summarization | |
Osochkin et al. | Automatic Identification of Authors' Stylistics and Gender on the Basis of the Corpus of Russian Fiction Using Extended Set-theoretic Model with Collocation Extraction. | |
Takhirov et al. | An evidence-based verification approach to extract entities and relations for knowledge base population |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |