CN108121697B - 一种文本改写的方法、装置、设备和计算机存储介质 - Google Patents

一种文本改写的方法、装置、设备和计算机存储介质 Download PDF

Info

Publication number
CN108121697B
CN108121697B CN201711138896.XA CN201711138896A CN108121697B CN 108121697 B CN108121697 B CN 108121697B CN 201711138896 A CN201711138896 A CN 201711138896A CN 108121697 B CN108121697 B CN 108121697B
Authority
CN
China
Prior art keywords
text
template
generalization
rewriting
text content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711138896.XA
Other languages
English (en)
Other versions
CN108121697A (zh
Inventor
袁德璋
付志宏
周古月
何径舟
张小彬
陈笑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201711138896.XA priority Critical patent/CN108121697B/zh
Publication of CN108121697A publication Critical patent/CN108121697A/zh
Application granted granted Critical
Publication of CN108121697B publication Critical patent/CN108121697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种文本改写的方法,该方法包括:获取待改写的文本内容;确定所述文本内容的可泛化成分,获取所述文本内容的泛化模板;匹配与所述泛化模板对应的改写模板,并基于所述改写模板对所述文本内容进行改写。本发明通过对文本内容进行泛化得到泛化模板,进而根据所得到的泛化模板匹配与其对应的改写模板,依据匹配得到的改写模板对文本内容进行改写,从而实现对文本内容进行整句改写,提升文本内容的改写效果。

Description

一种文本改写的方法、装置、设备和计算机存储介质
【技术领域】
本发明涉及自然语言处理技术,尤其涉及一种文本改写的方法、装置、设备和计算机存储介质。
【背景技术】
改写技术有着大量的应用需求,例如搜索引擎为了扩大召回,需要对用户query进行改写;一些文字资源为了提高多样性,需要用到改写;一些文章标题需要起的更好,同样需要用到改写。而现有的改写技术,大多都是基于统计机器翻译的框架进行的。虽然可控性强、准确率高,但是这种局部到局部的改写方法存在改写差异小、改写后的句子句式与原句相同、无法满足某些特定的改写需求等缺点。因此,亟需提供一种能够提升改写效果的文本改写的方法。
【发明内容】
有鉴于此,本发明提供了一种文本改写的方法、装置、设备和计算机存储介质,用于提升对文本内容的改写效果。
本发明为解决技术问题所采用的技术方案是提供一种文本改写的方法,所述方法包括:获取待改写的文本内容;确定所述文本内容的可泛化成分,获取所述文本内容的泛化模板;匹配与所述泛化模板对应的改写模板,并基于所述改写模板对所述文本内容进行改写。
根据本发明一优选实施例,所述确定所述文本内容的可泛化成分包括:对所述文本内容进行切词处理,获取所述文本内容的切词结果;对所述切词结果进行解析,获取所述文本内容中各词语的词性;基于预设的词性泛化要求,确定所述文本内容的可泛化成分。
根据本发明一优选实施例,所述预设的词性泛化要求为:对文本内容中的名词、数词以及时间词中的至少一种进行泛化。
根据本发明一优选实施例,所述获取所述文本内容的泛化模板包括:基于确定的可泛化成分对所述文本内容进行泛化,得到各泛化结果;利用各泛化结果得到所述文本内容的泛化模板。
根据本发明一优选实施例,所述与泛化模板对应的改写模板是采用如下方式预先生成的:获取文本对的平行语料;基于预设的词性泛化要求确定文本对中各文本的可泛化成分,基于所确定的可泛化成分对各文本进行泛化;将所述各文本中的一个文本的泛化结果作为泛化模板,另一个文本的泛化结果作为与其对应的改写模板。
根据本发明一优选实施例,所述泛化包括:将可泛化成分泛化为其对应的词性槽位,其中在泛化时对各泛化成分进行排列组合,得到各泛化结果。
根据本发明一优选实施例,所述文本对的平行语料是采用如下方式得到的:获取文本语料;确定所述文本语料中任意文本对之间的对齐得分;将对齐得分满足预设要求的文本对作为文本对的平行语料。
根据本发明一优选实施例,所述确定所述文本语料中任意文本对之间的对齐得分包括:对各文本进行切词处理,获取各文本的切词结果;使用预设的删除词典对所述切词结果中的可删除成分进行标记;确定所述文本对的两个切词结果之间未被标记的成分的对齐概率,利用所述对齐概率确定文本对之间的对齐得分。
根据本发明一优选实施例,在所述匹配与所述泛化模板对应的改写模板之前,还包括:对所述泛化模板中未被泛化的成分进行同义扩展;或者利用预设的可压缩结构词典,对所述泛化模板中包含的特定结构进行压缩。
根据本发明一优选实施例,所述方法还包括:使用评价模型对匹配得到的改写模板进行打分;根据打分结果,将满足预设要求的改写模板用于对文本内容进行改写。
根据本发明一优选实施例,所述评价模型是通过如下方式预先训练得到的:获取训练样本,所述训练样本包括泛化模板和改写模板对应的模板对,改写模板预先标记的得分;将所述模板对的匹配特征作为输入,所述已标记的得分作为输出,训练逻辑回归模型,得到评价模型。
根据本发明一优选实施例,所述模板对之间的匹配特征包括:槽位对齐信息、槽位词向量相似度、槽位专名相似度、槽位字面相似度、槽位边界语言模型值、正文对齐程度、模板对齐次数以及点击预估得分中的至少一种。
本发明为解决技术问题所采用的技术方案是提供一种文本改写的装置,所述装置包括:获取单元,用于获取待改写的文本内容;泛化单元,用于确定所述文本内容的可泛化成分,获取所述文本内容的泛化模板;改写单元,用于匹配与所述泛化模板对应的改写模板,并基于所述改写模板对所述文本内容进行改写。
根据本发明一优选实施例,所述泛化单元用于确定所述文本内容的可泛化成分时,具体执行:对所述文本内容进行切词处理,获取所述文本内容的切词结果;对所述切词结果进行解析,获取所述文本内容中各词语的词性;基于预设的词性泛化要求,确定所述文本内容的可泛化成分。
根据本发明一优选实施例,所述预设的词性泛化要求为:对文本内容中的名词、数词以及时间词中的至少一种进行泛化。
根据本发明一优选实施例,所述泛化单元用于获取所述文本内容的泛化模板时,具体执行:基于确定的可泛化成分对所述文本内容进行泛化,得到各泛化结果;利用各泛化结果得到所述文本内容的泛化模板。
根据本发明一优选实施例,所述装置还包括生成单元,用于预先生成与泛化模板对应的改写模板时,具体执行:获取文本对的平行语料;基于预设的词性泛化要求确定文本对中各文本的可泛化成分,基于所确定的可泛化成分对各文本进行泛化;将所述各文本中的一个文本的泛化结果作为泛化模板,另一个文本的泛化结果作为与其对应的改写模板。
根据本发明一优选实施例,所述泛化单元或生成单元进行泛化时,具体执行:将可泛化成分泛化为其对应的词性槽位,其中在泛化时对各泛化成分进行排列组合,得到各泛化结果。
根据本发明一优选实施例,所述生成单元获取所述文本对的平行语料时,具体执行:获取文本语料;确定所述文本语料中任意文本对之间的对齐得分;将对其得分满足预设要求的文本对作为文本对的平行语料。
根据本发明一优选实施例,所述生成单元在确定所述文本语料中任意文本对之间的对齐得分时,具体执行:对各文本进行切词处理,获取各文本的切词结果;使用预设的删除词典对所述切词结果中的可删除成分进行标记;确定所述文本对的两个切词结果之间未被标记的成分的对齐概率,利用所述对齐概率确定文本对之间的对齐得分。
根据本发明一优选实施例,所述改写单元在匹配与所述泛化模板对应的改写模板之前,还执行:对所述泛化模板中未被泛化的成分进行同义扩展;或者利用预设的可压缩结构词典,对所述泛化模板中包含的特定结构进行压缩。
根据本发明一优选实施例,所述改写单元还用于执行:使用评价模型对匹配得到的改写模板进行打分;根据打分结果,将满足预设要求的改写模板用于对文本内容进行改写。
根据本发明一优选实施例,所述装置还包括训练单元,用于预先训练得到评价模型时,具体执行:获取训练样本,所述训练样本包括泛化模板和改写模板对应的模板对,改写模板预先标记的得分;将所述模板对的匹配特征作为输入,所述已标记的得分作为输出,训练逻辑回归模型,得到评价模型。
由以上技术方案可以看出,本发明首先基于预设的词性泛化要求对文本进行泛化得到文本的泛化模板,然后在匹配与泛化模板对应的改写模板,基于所匹配的改写模板对文本进行改写,从而实现提升文本改写效果的目的。
【附图说明】
图1为本发明一实施例提供的文本改写的方法流程图;
图2为本发明一实施例提供的文本改写的装置结构图;
图3为本发明一实施例提供的计算机系统/服务器的框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1为本发明一实施例提供的文本改写的方法流程图,如图1中所示,所述方法包括:
在101中,获取待改写的文本内容。
在本步骤中,所获取的待改写的文本内容可以为需要进行改写的标题,也可以为需要进行改写的搜索关键词。
在102中,确定所述文本内容的可泛化成分,获取所述文本内容的泛化模板。
在本步骤中,对步骤101所获取的文本内容进行泛化后,获取该文本内容的泛化模板。在对文本内容进行泛化时,首先确定该文本内容的可泛化成分,然后基于确定的可泛化成分对该文本内容进行泛化。
具体地,在确定文本内容的可泛化成分时,可以采用如下方式:首先对该文本内容进行切词处理,获取该文本内容的切词结果;然后对该文本内容的切词结果进行解析,获取该文本内容所包含词语的词性;基于预设的词性泛化要求,确定该文本内容的可泛化成分。其中,预设的词性泛化要求为:对名词、数词以及时间词中的至少一种进行泛化。因此,该文本内容的可泛化成分包括名词、数词以及时间词中的至少一种。另外可以理解的是,所泛化的名词可以包括地点、人名、各类专用名词以及普通名词等词语。
在确定文本内容的可泛化成分后,对该文本内容进行泛化,获取该文本内容的泛化结果。对该文本内容中的可泛化成分进行泛化的过程,即将文本内容中的可泛化成分泛化为该泛化成分所对应的词性槽位的过程,例如“青岛”属于地点名词,则将其泛化为“[地点]”;“10月”属于时间词,则将其泛化为“[时间]”。
在获取文本内容的泛化结果后,对该文本内容的泛化结果中所包含的成分进行排列组合,从而得到该文本内容的泛化模板。这是由于文本内容的泛化结果中所包含的成分可能有很多,因此需要对泛化结果进行排列组合,以得到对应该文本内容的全部泛化模板。举例来说,若某文本内容的泛化结果为“有关[地点]的[数词][名词]”,对该泛化结果进行排列组合后,得到的泛化模板可以包括“有关[地点]的[数词][名词]”、“[数词]有关[地点]的[名词]”、“[数词][名词]有关[地点]的”等。
对上述文本内容进行泛化获取泛化模板的过程进行举例说明:若需要改写的文本内容为“有关青岛的10个秘密”,首先对该文本内容进行切词处理,得到“有关”、“青岛”、“的”、“10个”与“秘密”的切词结果;然后对切词结果进行词性解析,确定上述词语的词性,例如“青岛”属于地点、“10个”属于数词等;然后将属于名词的“青岛”与“秘密”、属于数词的“10个”进行泛化,得到的泛化结果可以为“有关[地点]的[数词][名词]”,也可以为“有关[地点]的[数词]秘密”,还可以为“有关青岛的[数词][名词]”等;最后对所有的泛化结果进行排列组合,得到该文本内容的泛化模板,所得到的泛化模板可以包括“[数词]有关[地点]的[名词]”、“[数词]秘密有关[地点]的”、“[数词]有关青岛的[名词]”等。
在103中,匹配与所述泛化模板对应的改写模板,并基于所述改写模板对所述文本内容进行改写。
在本步骤中,基于步骤102所得到的泛化模板,在匹配与其所对应的改写模板后,基于匹配得到的改写模板对文本内容进行改写,从而获取该文本内容的改写结果。其中,每个泛化模板会与至少一个改写模板相对应,因此根据所得到的泛化模板能够确定与之相匹配的改写模板。
具体地,与泛化模板相对应的改写模板是采用如下方式预先生成的:
(1)获取文本对的平行语料。
在本步骤中,所获取的文本对的平行语料为在语义以及句法上相关的文本对,即属于平行语料的文本对中所包含的文本之间语义相关、句法相关。
在获取文本对的平行语料之前,首先需要获取文本语料。该文本语料可以为用于改写搜索关键词的query-query语料,也可以为用于改写标题的title-title语料,还可以为query-title语料。本实施例以改写标题为例进行说明,则所获取的文本语料为title-title语料。
其中,所获取title-title语料为对应某一搜索关键词的全部搜索结果的标题。因此,在获取title-title语料时可以采用以下方式:基于展现日志,获取根据一个搜索关键词所得到的全部搜索结果,从与搜索结果对应的标题中任意挑选一对,作为title-title语料。
根据上一步骤所得到的文本语料,由于各文本语料所包含的文本对都对应同一个搜索关键词,因此可以初步认定该文本对所包含的文本之间具有一定的语义相关性。因此在获取文本语料之后,通过确定各语料所包含文本之间的对齐得分,确定文本之间的句法相关性。
具体地,可以采用以下方式确定各语料所包含文本之间的对齐得分:
1)首先对各文本进行切词处理,获取各文本的切词结果。
2)使用预设的删除词典,对所述切词结果中的可删除成分进行标记。
在预先建立的删除词典中,记录有很多无意义、可删除的词或者短语,例如“你不知道的”、“你知道吗”、“揭秘”等,这些词或者短语对整个句子的语义和信息量不会产生影响。在建立该删除词典时,可以通过对已获取的文本语料中可删除的成分进行统计,将删除频率高于一定阈值的词或者短语作为该删除词典的构成成分。
在本步骤中,获取各文本的切词结果后,根据该删除词典查找各文本的切词结果中是否含有可删除成分,若有,则对各文本的切词结果中所含有的可删除成分进行标记。
3)确定文本对的两个切词结果之间未被标记的成分的对齐概率,利用对齐概率确定文本对之间的对齐得分。
其中,文本对的两个切词结果之间未被标记的成分的对齐概率,即文本对中文本一所包含的成分在文本二中出现的概率以及文本二所包含的成分在文本一中出现的概率,利用所得到的对齐概率确定文本对之间的对齐得分。
举例来说,若文本对中的文本一包含5个成分,文本二也包含5个成分,若文本一所包含的5个成分在文本二全部出现,则文本一与文本二的对齐概率为1,若文本一所包含的5个成分有4个出现在文本二,则文本一与文本二的对齐概率为0.8;同理可得,若文本二所包含的5个成分在文本一全部出现,则文本二与文本一的对齐概率为1,若文本二所包含的5个成分有3个在文本一出现,则文本二与文本一的对齐概率为0.6。
利用文本对的两个切词结果之间的对齐概率确定文本对之间的对齐得分。例如,文本一与文本二之间的对齐概率为1,文本二与文本一之间的对齐概率为0.8,则文本对之间的对齐得分可以为(1,0.8);也可以对两个对齐概率取平均值,则文本对之间的对齐得分为0.9。当文本对之间的对齐得分满足预设要求时,则可以将该文本对作为文本对的平行语料。可以采用预设阈值的方式确定满足预设要求的文本对。若文本对之间的对齐得分为(1,0.8),则该对齐得分中的两个对齐概率需同时超过预设阈值,才可以确定该文本对满足预设要求;若文本对之间的对齐得分为0.9时,则该对齐得分超过预设阈值时,则确定该文本对满足预设要求。
(2)基于预设的词性泛化要求确定文本对中各文本的可泛化成分,基于所确定的可泛化成分对各文本进行泛化。
基于预设的词性泛化要求,确定文本对中各文本的可泛化成分。在本实施例中,预设的词性泛化要求为:对名词、数词以及时间词中的至少一种进行泛化,即将文本对中各文本所包含的名词、数词以及时间词中的至少一种作为可泛化成分。在确定各文本中的可泛化成分后,对各文本进行泛化。其中,对各文本进行泛化的过程为将各文本中可泛化成分泛化为其对应的词性槽位的过程。另外可以理解的是,由于泛化结果中所包含的成分可能有很多,因此还需要对各文本的泛化结果中所包含的成分进行排列组合,以获取所有可能的泛化结果。
(3)将各文本中的一个文本的泛化结果作为泛化模板,另一个文本的泛化结果作为与其对应的改写模板。
在对各文本进行泛化后得到各文本的泛化结果,该泛化结果可以用于表示各文本的句式结构。将各文本中的一个文本的泛化结果作为泛化模板,而另一个文本的泛化结果作为改写模板,即一个文本对所得到的泛化模板与改写模板相对应。
对上述过程进行举例说明,首先获取的title-title语料为“有关京都的50个秘密”和“关于京都的50个秘密,你都知道吗”;利用可删除词典对上述两个文本中的可删除成分进行标记,例如将“你都知道吗”标记为可删除成分;然后获取文本对之间的对齐得分,若两个文本中除可删除成分外的其他词语全部对齐,则文本对之间的对齐得分都为1,因此这该文本对可以作为平行语料;在确定该文本对为平行语料之后,基于预设的词性泛化要求确定上述两个文本的可泛化成分,若“京都[地点]”、“50个[数词]”、“秘密[名词]”为可泛化成分,则两个文本的泛化结果为“有关[地点]的[数词][名词]”以及“关于[地点]的[数词][名词],你都知道吗(可删除)”;可以将泛化结果“有关[地点]的[数词][名词]”作为泛化模板,将“关于[地点]的[数词][名词],你都知道吗”作为与之对应的改写模板。
在本步骤中,在进行匹配与泛化模板对应的改写模板之前,还可以进一步采取模板扩展策略,扩大泛化模板匹配改写模板的范围。
可选地,在本实施例的一个具体实现过程中,可以对泛化模板中未被泛化的成分进行同义扩展。具体地,对泛化模板中未被泛化的成分进行同义改写,即利用同义词、别名等对泛化模板中未被泛化的成分进行内容替换。举例来说,若泛化模板为“谁是[人名]的老婆”,若“老婆”的同义词为“妻子”,则可以将该泛化模板改写为“谁是[人名]的妻子”;若泛化模板为“程序员的[数词][名词]”,“程序员”的别名为“码农”,则可以将该泛化模板改写为“码农的[数词][名词]”。
还可以为基于预设的可压缩结构词典,对泛化模板中的特定结构进行压缩。其中,该可压缩结构词典中包含可以进行压缩的结构以及与其对应的压缩结果,例如可以将“定语+名词”结构压缩为“名词”,可以将“数词+名词”结构压缩为“名词”等。举例来说,若文本内容为“北京的10个美食”,若其泛化模板为“北京的[数词][名词]”,其中“10个美食”属于“数词+名词”的结构,则将其压缩为“[名词1]”,则该文本内容的泛化模板变为“北京的[名词1]”。可以理解的是,当使用这种方式进行模板扩展时,在对文本进行改写时需要对压缩结构进行还原,即将“[名词1]”还原为“10个美食”。
在匹配与泛化模板对应的改写模板后,基于该匹配得到的改写模板对文本内容进行改写,即将改写模板中存在的泛化成分还原为该文本内容中的与其对应的词语。举例来说,若待改写的文本内容为“有关青岛的10个秘密”,若其泛化模板为“有关[地点]的[数词]秘密”,与该泛化模板对应的改写模板若为“关于[地点]的[数词]秘密,你都知道吗”,其中泛化成分“[地点]”对应“青岛”,“[数词]”对应“10个”,则最终的改写结果为“关于青岛的10个秘密,你都知道吗”。
另外可以理解的是,由于在匹配与泛化模板对应的改写模板时,可能会存在多个改写模板,因此可以对多个改写模板进行打分,根据打分结果确定改写文本内容时所使用的改写模板。其中,在对改写模板进行打分时,可以利用预先训练得到的评价模型进行打分。
具体地,该评价模型是通过如下方式预先训练得到的:获取训练样本,所获取的训练样本中包括泛化模板和改写模板对应的模板对以及改写模板预先标记的得分;提取模板对的匹配特征,将所提取的模板对的匹配特征作为输入,改写模板已标记的得分作为输出,训练逻辑回归模型,得到评价模型。
其中,所提取的泛化模板和改写模板对应的模板对的匹配特征包括:槽位对齐信息,包括槽位正向对齐概率、反向对齐概率、对齐次数等;槽位词向量相似度,即计算槽位词向量的cosine相似度;槽位专名相似度,利用类别专用词典,判断槽位是否属于同类别;槽位字面相似度,切分每个槽位到字级别后计算相似度;槽位边界语言模型值,槽位替换后边界处的通顺度;正文对齐程度,确定所有未对齐成分是否出现在正文中;模板对齐次数,对模板进行统计,体现模板的置信度;点击预估得分,使用点击预估模型对模板的点击进行预估的得分。
在使用评价模型对改写模板进行打分后,根据各改写模板所对应的得分,将满足预设要求的改写模板作为最终的改写模板。若各改写模板的得分均不相同时,则将得分最高的改写模板作为最终的改写模板;若得分最高的改写模板有多个时,则从中任选一个作为最终的改写模板。在确定最终的改写模板后,利用该改写模板对文本内容进行改写,即将该文本内容中的可泛化成分进行还原,得到该文本内容的改写结果。
图2为本发明一实施例提供的文本改写的装置结构图,如图2中所示,所述装置包括:获取单元21、泛化单元22、生成单元23、改写单元24以及训练单元25。
获取单元21,用于获取待改写的文本内容。
获取单元21所获取的待改写的文本内容可以为需要进行改写的标题,也可以为需要进行改写的搜索关键词。
泛化单元22,用于确定所述文本内容的可泛化成分,获取所述文本内容的泛化模板。
泛化单元22对获取单元21所获取的文本内容进行泛化后,获取该文本内容的泛化模板。在对文本内容进行泛化时,泛化单元22首先确定该文本内容的可泛化成分,然后基于确定的可泛化成分对该文本内容进行泛化。
具体地,泛化单元22在确定文本内容的可泛化成分时,可以采用如下方式:首先对该文本内容进行切词处理,获取该文本内容的切词结果;然后对该文本内容的切词结果进行解析,获取该文本内容所包含词语的词性;基于预设的词性泛化要求,确定该文本内容的可泛化成分。其中,预设的词性泛化要求为:对名词、数词以及时间词中的至少一种进行泛化。因此,该文本内容的可泛化成分包括名词、数词以及时间词中的至少一种。另外可以理解的是,所泛化的名词可以包括地点、人名、各类专用名词以及普通名词等词语。
泛化单元22在确定文本内容的可泛化成分后,对该文本内容进行泛化,获取该文本内容的泛化结果。泛化单元22对该文本内容中的可泛化成分进行泛化的过程,即将文本内容中的可泛化成分泛化为该泛化成分所对应的词性槽位的过程,例如“青岛”属于地点名词,则将其泛化为“[地点]”;“10月”属于时间词,则将其泛化为“[时间]”。
泛化单元22在获取文本内容的泛化结果后,还可以对该文本内容的泛化结果中所包含的成分进行排列组合,从而得到该文本内容的泛化模板。这是由于文本内容的泛化结果中所包含的成分可能有很多,因此需要对泛化结果进行排列组合,以得到对应该文本内容的全部泛化模板。举例来说,若某文本内容的泛化结果为“有关[地点]的[数词][名词]”,对该泛化结果进行排列组合后,得到的泛化模板可以包括“有关[地点]的[数词][名词]”、“[数词]有关[地点]的[名词]”、“[数词][名词]有关[地点]的”等。
生成单元23,用于预先生成与泛化模板对应的改写模板。
生成单元23在用于预先生成与泛化模板相对应的改写模板时,可以采用如下方式:
(1)获取文本对的平行语料。
生成单元23所获取的文本对的平行语料为在语义以及句法上相关的文本对,即属于平行语料的文本对中所包含的文本之间语义相关、句法相关。
生成单元23在获取文本对的平行语料之前,首先需要获取文本语料。该文本语料可以为用于改写搜索关键词的query-query语料,也可以为用于改写标题的title-title语料,还可以为query-title语料。本实施例以改写标题为例进行说明,则所获取的文本语料为title-title语料。
其中,生成单元23所获取的title-title语料为对应某一搜索关键词的全部搜索结果的标题。因此,生成单元23在获取title-title语料时可以采用以下方式:基于展现日志,获取根据一个搜索关键词所得到的全部搜索结果,从与搜索结果对应的标题中任意挑选一对,作为title-title语料。
根据上一步骤所得到的文本语料,由于各文本语料所包含的文本对都对应同一个搜索关键词,因此可以初步认定该文本对所包含的文本之间具有一定的语义相关性。因此在获取文本语料之后,生成单元23通过确定各语料所包含文本之间的对齐得分,确定文本之间的句法相关性。
具体地,生成单元23可以采用以下方式确定文本对之间的对齐得分:
1)首先对各文本进行切词处理,获取各文本的切词结果。
2)使用预设的删除词典,对所述切词结果中的可删除成分进行标记。
在预先建立的删除词典中,记录有很多无意义、可删除的词或者短语,例如“你不知道的”、“你知道吗”、“揭秘”等,这些词或者短语对整个句子的语义和信息量不会产生影响。在建立该删除词典时,可以通过对已获取的文本语料中可删除的成分进行统计,将删除频率高于一定阈值的词或者短语作为该删除词典的构成成分。
生成单元23获取各文本的切词结果后,根据该删除词典查找各文本的切词结果中是否含有可删除成分,若有,则对各文本的切词结果中所含有的可删除成分进行标记。
3)确定文本对的两个切词结果之间未被标记的成分的对齐概率,利用对齐概率确定文本对之间的对齐得分。
其中,文本对的两个切词结果之间未被标记的成分的对齐概率,即文本对中文本一所包含的成分在文本二中出现的概率以及文本二所包含的成分在文本一中出现的概率,利用所得到的对齐概率确定文本对之间的对齐得分。
举例来说,若文本对中的文本一包含5个成分,文本二也包含5个成分,若文本一所包含的5个成分在文本二全部出现,则文本一与文本二的对齐概率为1,若文本一所包含的5个成分有4个出现在文本二,则文本一与文本二的对齐概率为0.8;同理可得,若文本二所包含的5个成分在文本一全部出现,则文本二与文本一的对齐概率为1,若文本二所包含的5个成分有3个在文本一出现,则文本二与文本一的对齐概率为0.6。
生成单元23利用文本对的两个切词结果之间的对齐概率确定文本对之间的对齐得分。例如,若文本一与文本二之间的对齐概率为1,文本二与文本一之间的对齐概率为0.8,则文本对之间的对齐得分可以为(1,0.8);也可以对两个对齐概率取平均值,则文本对之间的对齐得分为0.9。当文本对之间的对齐得分满足预设要求时,生成单元23可以将该文本对作为文本对的平行语料。生成单元23可以采用预设阈值的方式确定满足预设要求的文本对。若文本对之间的对齐得分为(1,0.8),则该对齐得分中的两个对齐概率需同时超过预设阈值,才可以确定该文本对满足预设要求;若文本对之间的对齐得分为0.9时,则该对齐得分超过预设阈值时,则确定该文本对满足预设要求。
(2)基于预设的词性泛化要求确定文本对中各文本的可泛化成分,基于所确定的可泛化成分对各文本进行泛化。
生成单元23基于预设的词性泛化要求,确定文本对中各文本的可泛化成分。在本实施例中,预设的词性泛化要求为:对名词、数词以及时间词中的至少一种进行泛化,即将文本对中各文本所包含的名词、数词以及时间词中的至少一种作为可泛化成分。生成单元23在确定各文本中的可泛化成分后,对各文本进行泛化。其中,生成单元23对各文本进行泛化的过程为将各文本中可泛化成分泛化为其对应的词性槽位的过程。另外可以理解的是,由于泛化结果中所包含的成分可能有很多,因此生成单元23还可以对各文本的泛化结果中所包含的成分进行排列组合,以获取所有可能的泛化结果。
(3)将各文本中的一个文本的泛化结果作为泛化模板,另一个文本的泛化结果作为与其对应的改写模板。
生成单元23在对各文本进行泛化后,得到各文本的泛化结果,该泛化结果可以用于表示各文本的句式结构。生成单元23将各文本中的一个文本的泛化结果作为泛化模板,而另一个文本的泛化结果作为改写模板,即一个文本对所得到的泛化模板与改写模板相对应。
改写单元24,用于匹配与所述泛化模板对应的改写模板,并基于所述改写模板对所述文本内容进行改写。
改写单元24基于泛化单元22所得到的泛化模板,利用生成单元23预先生成的与泛化模板匹配的改写模板后,基于匹配得到的改写模板对文本内容进行改写,从而获取该文本内容的改写结果。其中,每个泛化模板会与至少一个改写模板相对应,因此根据所得到的泛化模板能够确定与之相匹配的改写模板。
改写单元24在进行匹配与泛化模板对应的改写模板之前,还可以进一步采取模板扩展策略,扩大泛化模板匹配改写模板的范围。
可选地,在本实施例的一个具体实现过程中,改写单元24可以对泛化模板中未被泛化的成分进行同义扩展。具体地,改写单元24对泛化模板中未被泛化的成分进行同义改写,即利用同义词、别名等对泛化模板中所包含的成分进行内容替换。举例来说,若泛化模板为“谁是[人名]的老婆”,若“老婆”的同义词为“妻子”,则改写单元24可以将该泛化模板改写为“谁是[人名]的妻子”;若泛化模板为“程序员的[数词][名词]”,“程序员”的别名为“码农”,则改写单元24可以将该泛化模板改写为“码农的[数词][名词]”。
还可以为基于预设的可压缩结构词典,改写单元24对泛化模板中的特定结构进行压缩。其中,该可压缩结构词典中包含可以进行压缩的结构以及与其对应的压缩结果,例如可以将“定语+名词”结构压缩为“名词”,可以将“数词+名词”结构压缩为“名词”等。举例来说,若文本内容为“北京的10个美食”,若其泛化模板为“北京的[数词][名词]”,其中“10个美食”属于“数词+名词”的结构,则改写单元24将其压缩为“[名词1]”,则该文本内容的泛化模板变为“北京的[名词1]”。可以理解的是,当使用这种方式进行模板扩展时,在对文本进行改写时需要对压缩结构进行还原,即将“[名词1]”还原为“10个美食”。
在匹配与泛化模板对应的改写模板后,基于该匹配得到的改写模板对文本内容进行改写,即将改写模板中存在的泛化成分还原为该文本内容中的与其对应的词语。举例来说,若待改写的文本内容为“有关青岛的10个秘密”,若其泛化模板为“有关[地点]的[数词]秘密”,与该泛化模板对应的改写模板若为“关于[地点]的[数词]秘密,你都知道吗”,其中泛化成分“[地点]”对应“青岛”,“[数词]”对应“10个”,则最终的改写结果为“关于青岛的10个秘密,你都知道吗”。
另外可以理解的是,由于在对文本内容进行改写时,可能获得多个改写模板,则改写单元24还可以对所获得的多个改写模板进行打分之后,根据打分结果确定最终的改写模板。在改写单元24使用评价模型对改写模板进行打分后,根据各改写模板所对应的得分,将满足预设要求的改写模板作为最终的改写模板。若各改写模板的得分均不相同时,则将得分最高的改写模板作为最终的改写模板;若得分最高的改写模板有多个时,则从中任选一个作为最终的改写模板。改写单元24使用所确定的最终的改写模板对文本内容进行改写,以获得该文本内容的改写结果。
训练单元25,用于预先训练得到评价模型。
改写单元24在对改写模板进行打分时所使用的评价模型由训练单元25训练得到。
具体地,训练单元25是通过如下方式预先训练得到该评价模型的:
获取训练样本,训练单元25所获取的训练样本中包括泛化模板和改写模板对应的模板对以及改写模板预先标记的得分;训练单元25提取模板对的匹配特征后,将所提取的匹配特征作为输入,改写模板已标记的得分作为输出,训练逻辑回归模型,得到评价模型。
其中,训练单元25所提取的泛化模板和改写模板对应的模板对的匹配特征包括:槽位对齐信息,包括槽位正向对齐概率、反向对齐概率、对齐次数等;槽位词向量相似度,即计算槽位词向量的cosine相似度;槽位专名相似度,利用类别专用词典,判断槽位是否属于同类别;槽位字面相似度,切分每个槽位到字级别后计算相似度;槽位边界语言模型值,槽位替换后边界处的通顺度;正文对齐程度,确定所有未对齐成分是否出现在正文中;模板对齐次数,对模板进行统计,体现模板的置信度;点击预估得分,使用点击预估模型对模板的点击进行预估的得分。
图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图3显示的计算机系统/服务器012仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于:一个或者多个处理器或者处理单元016,系统存储器028,连接不同系统组件(包括系统存储器028和处理单元016)的总线018。
总线018表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器028可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统034可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块042的程序/实用工具040,可以存储在例如存储器028中,这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信,在本发明中,计算机系统/服务器012与外部雷达设备进行通信,还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信,和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且,计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器012使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元016通过运行存储在系统存储器028中的程序,从而执行各种功能应用以及数据处理,例如实现一种文本改写的方法,可以包括:
获取待改写的文本内容;
确定所述文本内容的可泛化成分,获取所述文本内容的泛化模板;
匹配与所述泛化模板对应的改写模板,并基于所述改写模板对所述文本内容进行改写。
上述的计算机程序可以设置于计算机存储介质中,即该计算机存储介质被编码有计算机程序,该程序在被一个或多个计算机执行时,使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。例如,被上述一个或多个处理器执行的方法流程,可以包括:
获取待改写的文本内容;
确定所述文本内容的可泛化成分,获取所述文本内容的泛化模板;
匹配与所述泛化模板对应的改写模板,并基于所述改写模板对所述文本内容进行改写。
随着时间、技术的发展,介质含义越来越广泛,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
利用本发明所提供的技术方案,通过对文本内容进行泛化得到泛化模板,进而根据所得到的泛化模板匹配与其对应的改写模板,依据匹配得到的改写模板对文本内容进行改写,具备增添/删减部分成分的功能,改写结果的变换程度较大,从而达到了对文本内容进行整句改写的效果,能够使得用户对改写后的文本的感知更加明显。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (21)

1.一种文本改写的方法,其特征在于,所述方法包括:
获取待改写的文本内容;
确定所述文本内容的可泛化成分,获取所述文本内容的泛化模板;
匹配与所述泛化模板对应的改写模板,并根据所述文本内容将所述改写模板中的可泛化成分进行还原,得到所述文本内容的改写结果;
其中,所述匹配与所述泛化模板对应的改写模板包括:
根据所述泛化模板与所述匹配得到的改写模板之间的匹配特征,使用评价模型对所述匹配得到的改写模板进行打分;
根据打分结果,将满足预设要求的改写模板用于对所述文本内容进行改写;
所述评价模型是通过如下方式预先训练得到的:
获取训练样本,所述训练样本包括泛化模板和改写模板对应的模板对,改写模板预先标记的得分;
将所述模板对的匹配特征作为输入,所述预先标记的得分作为输出,训练逻辑回归模型,得到评价模型。
2.根据权利要求1所述的方法,其特征在于,所述确定所述文本内容的可泛化成分包括:
对所述文本内容进行切词处理,获取所述文本内容的切词结果;
对所述切词结果进行解析,获取所述文本内容中各词语的词性;
基于预设的词性泛化要求,确定所述文本内容的可泛化成分。
3.根据权利要求2所述的方法,其特征在于,所述预设的词性泛化要求为:对文本内容中的名词、数词以及时间词中的至少一种进行泛化。
4.根据权利要求1所述的方法,其特征在于,所述获取所述文本内容的泛化模板包括:
基于确定的可泛化成分对所述文本内容进行泛化,得到各泛化结果;
利用各泛化结果得到所述文本内容的泛化模板。
5.根据权利要求1所述的方法,其特征在于,所述泛化模板对应的改写模板是采用如下方式预先生成的:
获取文本对的平行语料;
基于预设的词性泛化要求确定文本对中各文本的可泛化成分,基于所确定的可泛化成分对各文本进行泛化;
将所述各文本中的一个文本的泛化结果作为泛化模板,另一个文本的泛化结果作为与其对应的改写模板。
6.根据权利要求4或5所述的方法,其特征在于,所述泛化包括:
将可泛化成分泛化为其对应的词性槽位,其中在泛化时对各泛化成分进行排列组合,得到各泛化结果。
7.根据权利要求5所述的方法,其特征在于,所述文本对的平行语料是采用如下方式得到的:
获取文本语料;
确定所述文本语料中任意文本对之间的对齐得分;
将对齐得分满足预设要求的文本对作为文本对的平行语料。
8.根据权利要求7所述的方法,其特征在于,所述确定所述文本语料中任意文本对之间的对齐得分包括:
对各文本进行切词处理,获取各文本的切词结果;
使用预设的删除词典对所述切词结果中的可删除成分进行标记;
确定所述文本对的两个切词结果之间未被标记的成分的对齐概率,利用所述对齐概率确定文本对之间的对齐得分。
9.根据权利要求1所述的方法,其特征在于,在所述匹配与所述泛化模板对应的改写模板之前,还包括:
对所述泛化模板中未被泛化的成分进行同义扩展;或者
利用预设的可压缩结构词典,对所述泛化模板中包含的特定结构进行压缩。
10.根据权利要求1所述的方法,其特征在于,所述模板对之间的匹配特征包括:槽位对齐信息、槽位词向量相似度、槽位专名相似度、槽位字面相似度、槽位边界语言模型值、正文对齐程度、模板对齐次数以及点击预估得分中的至少一种。
11.一种文本改写的装置,其特征在于,所述装置包括:
获取单元,用于获取待改写的文本内容;
泛化单元,用于确定所述文本内容的可泛化成分,获取所述文本内容的泛化模板;
改写单元,用于匹配与所述泛化模板对应的改写模板,并根据所述文本内容将所述改写模板中的可泛化成分进行还原,得到所述文本内容的改写结果;
其中,所述改写单元在匹配与所述泛化模板对应的改写模板时,具体执行:
根据所述泛化模板与所述匹配得到的改写模板之间的匹配特征,使用评价模型对所述匹配得到的改写模板进行打分;
根据打分结果,将满足预设要求的改写模板用于对所述文本内容进行改写;
训练单元,用于通过如下方式预先训练得到所述评价模型:
获取训练样本,所述训练样本包括泛化模板和改写模板对应的模板对,改写模板预先标记的得分;
将所述模板对的匹配特征作为输入,所述预先标记的得分作为输出,训练逻辑回归模型,得到评价模型。
12.根据权利要求11所述的装置,其特征在于,所述泛化单元用于确定所述文本内容的可泛化成分时,具体执行:
对所述文本内容进行切词处理,获取所述文本内容的切词结果;
对所述切词结果进行解析,获取所述文本内容中各词语的词性;
基于预设的词性泛化要求,确定所述文本内容的可泛化成分。
13.根据权利要求12所述的装置,其特征在于,所述预设的词性泛化要求为:对文本内容中的名词、数词以及时间词中的至少一种进行泛化。
14.根据权利要求11所述的装置,其特征在于,所述泛化单元用于获取所述文本内容的泛化模板时,具体执行:
基于确定的可泛化成分对所述文本内容进行泛化,得到各泛化结果;
利用各泛化结果得到所述文本内容的泛化模板。
15.根据权利要求11所述的装置,其特征在于,所述装置还包括生成单元,在用于预先生成所述泛化模板对应的改写模板时,具体执行:
获取文本对的平行语料;
基于预设的词性泛化要求确定文本对中各文本的可泛化成分,基于所确定的可泛化成分对各文本进行泛化;
将所述各文本中的一个文本的泛化结果作为泛化模板,另一个文本的泛化结果作为与其对应的改写模板。
16.根据权利要求14或15所述的装置,其特征在于,所述泛化单元或生成单元进行泛化时,具体执行:
将可泛化成分泛化为其对应的词性槽位,其中在泛化时对各泛化成分进行排列组合,得到各泛化结果。
17.根据权利要求15所述的装置,其特征在于,所述生成单元获取所述文本对的平行语料时,具体执行:
获取文本语料;
确定所述文本语料中任意文本对之间的对齐得分;
将对齐得分满足预设要求的文本对作为文本对的平行语料。
18.根据权利要求17所述的装置,其特征在于,所述生成单元在确定所述文本语料中任意文本对之间的对齐得分时,具体执行:
对各文本进行切词处理,获取各文本的切词结果;
使用预设的删除词典对所述切词结果中的可删除成分进行标记;
确定所述文本对的两个切词结果之间未被标记的成分的对齐概率,利用所述对齐概率确定文本对之间的对齐得分。
19.根据权利要求11所述的装置,其特征在于,所述改写单元在匹配与所述泛化模板对应的改写模板之前,还执行:
对所述泛化模板中未被泛化的成分进行同义扩展;或者
利用预设的可压缩结构词典,对所述泛化模板中包含的特定结构进行压缩。
20.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一所述的方法。
21.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-10中任一所述的方法。
CN201711138896.XA 2017-11-16 2017-11-16 一种文本改写的方法、装置、设备和计算机存储介质 Active CN108121697B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711138896.XA CN108121697B (zh) 2017-11-16 2017-11-16 一种文本改写的方法、装置、设备和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711138896.XA CN108121697B (zh) 2017-11-16 2017-11-16 一种文本改写的方法、装置、设备和计算机存储介质

Publications (2)

Publication Number Publication Date
CN108121697A CN108121697A (zh) 2018-06-05
CN108121697B true CN108121697B (zh) 2022-02-25

Family

ID=62228457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711138896.XA Active CN108121697B (zh) 2017-11-16 2017-11-16 一种文本改写的方法、装置、设备和计算机存储介质

Country Status (1)

Country Link
CN (1) CN108121697B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241286B (zh) * 2018-09-21 2020-03-17 百度在线网络技术(北京)有限公司 用于生成文本的方法和装置
CN109739968A (zh) * 2018-12-29 2019-05-10 北京猎户星空科技有限公司 一种数据处理方法及装置
CN109766537A (zh) * 2019-01-16 2019-05-17 北京未名复众科技有限公司 留学文书撰写方法、装置及电子设备
CN110309280B (zh) * 2019-05-27 2021-11-09 重庆小雨点小额贷款有限公司 一种语料扩容方法及相关设备
CN111666775B (zh) * 2020-05-21 2023-08-22 平安科技(深圳)有限公司 文本处理方法、装置、设备及存储介质
CN113822034B (zh) * 2021-06-07 2024-04-19 腾讯科技(深圳)有限公司 一种复述文本的方法、装置、计算机设备及存储介质
CN113935306A (zh) * 2021-09-14 2022-01-14 有米科技股份有限公司 广告文案模板处理方法及装置
CN115713071B (zh) * 2022-11-11 2024-06-18 北京百度网讯科技有限公司 用于处理文本的神经网络的训练方法和处理文本的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101346716A (zh) * 2005-12-22 2009-01-14 国际商业机器公司 通过利用查找和替换输入的派生的查找和替换功能来编辑文本的方法和系统
CN101470700A (zh) * 2007-12-28 2009-07-01 日电(中国)有限公司 文本模板生成器、文本生成设备、文本检验设备及其方法
CN103678270A (zh) * 2012-08-31 2014-03-26 富士通株式会社 语义单元抽取方法和语义单元抽取设备
CN106650943A (zh) * 2016-10-28 2017-05-10 北京百度网讯科技有限公司 基于人工智能的辅助写作方法和装置
JP2017129994A (ja) * 2016-01-19 2017-07-27 日本電信電話株式会社 文書き換え装置、方法、及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05151260A (ja) * 1991-11-29 1993-06-18 Hitachi Ltd 翻訳テンプレート学習方法および翻訳テンプレート学習システム
CN101639826B (zh) * 2009-09-01 2012-07-04 西北大学 一种基于中文句式模板变换的文本隐藏方法
CN103020040A (zh) * 2011-09-27 2013-04-03 富士通株式会社 源语言改写处理方法和设备及机器翻译系统
CN103186509B (zh) * 2011-12-29 2016-03-30 北京百度网讯科技有限公司 通配符类模板泛化方法和装置、通用模板泛化方法和系统
CN106610972A (zh) * 2015-10-21 2017-05-03 阿里巴巴集团控股有限公司 查询改写方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101346716A (zh) * 2005-12-22 2009-01-14 国际商业机器公司 通过利用查找和替换输入的派生的查找和替换功能来编辑文本的方法和系统
CN101470700A (zh) * 2007-12-28 2009-07-01 日电(中国)有限公司 文本模板生成器、文本生成设备、文本检验设备及其方法
CN103678270A (zh) * 2012-08-31 2014-03-26 富士通株式会社 语义单元抽取方法和语义单元抽取设备
JP2017129994A (ja) * 2016-01-19 2017-07-27 日本電信電話株式会社 文書き換え装置、方法、及びプログラム
CN106650943A (zh) * 2016-10-28 2017-05-10 北京百度网讯科技有限公司 基于人工智能的辅助写作方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于模板方法的汉语语句自动改写研究;桑亚辉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120215(第2期);I138-2620 *

Also Published As

Publication number Publication date
CN108121697A (zh) 2018-06-05

Similar Documents

Publication Publication Date Title
CN108121697B (zh) 一种文本改写的方法、装置、设备和计算机存储介质
US11216504B2 (en) Document recommendation method and device based on semantic tag
US11182445B2 (en) Method, apparatus, server, and storage medium for recalling for search
CN107679039B (zh) 用于确定语句意图的方法和装置
US9558264B2 (en) Identifying and displaying relationships between candidate answers
US9318027B2 (en) Caching natural language questions and results in a question and answer system
US20180341871A1 (en) Utilizing deep learning with an information retrieval mechanism to provide question answering in restricted domains
US10339453B2 (en) Automatically generating test/training questions and answers through pattern based analysis and natural language processing techniques on the given corpus for quick domain adaptation
US9002869B2 (en) Machine translation for query expansion
US9542496B2 (en) Effective ingesting data used for answering questions in a question and answer (QA) system
US9342561B2 (en) Creating and using titles in untitled documents to answer questions
US11151191B2 (en) Video content segmentation and search
CN110569335B (zh) 基于人工智能的三元组校验方法、装置及存储介质
CN108932218B (zh) 一种实例扩展方法、装置、设备和介质
US20080162528A1 (en) Content Management System and Method
CN111597800B (zh) 同义句的获取方法及装置、设备及存储介质
US20200184012A1 (en) Natural Language Document Summarization Using Hyperbolic Embeddings
CN110750627A (zh) 一种素材的检索方法、装置、电子设备及存储介质
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
CN113434636A (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN113656763B (zh) 确定小程序特征向量的方法、装置和电子设备
CN112597748B (zh) 语料生成方法、装置、设备及计算机可读存储介质
CN108268443B (zh) 确定话题点转移以及获取回复文本的方法、装置
US20120185496A1 (en) Method of and a system for retrieving information
CN114430832A (zh) 数据处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant