CN109117475A - 一种文本改写的方法以及相关设备 - Google Patents

一种文本改写的方法以及相关设备 Download PDF

Info

Publication number
CN109117475A
CN109117475A CN201810709347.1A CN201810709347A CN109117475A CN 109117475 A CN109117475 A CN 109117475A CN 201810709347 A CN201810709347 A CN 201810709347A CN 109117475 A CN109117475 A CN 109117475A
Authority
CN
China
Prior art keywords
participle
text
preset duration
participle set
rewritten
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810709347.1A
Other languages
English (en)
Other versions
CN109117475B (zh
Inventor
王璐
张文明
陈少杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201810709347.1A priority Critical patent/CN109117475B/zh
Publication of CN109117475A publication Critical patent/CN109117475A/zh
Application granted granted Critical
Publication of CN109117475B publication Critical patent/CN109117475B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种文本改写的方法及相关设备,用于提高文本改写的合理性。本发明实施例方法包括:将用户输入的目标文本进行分词,以得到第一分词集合,所述第一分词集合中至少包括一个分词;对所述第一分词集合中的每个分词分别进行改写,以得到第二分词集合,所述第二分词集合中的各个分词与所述第一分词集合中的各个分词具有关联关系,且所述第一分词集合中的每个分词至少对应所述第二分词集合中的一个分词;计算所述第二分词集合中的每个分词的语义损失,所述语义损失为所述第一分词集合中的分词与所述第二分词集合中对应的分词的差异度;确定将所述第二分词集合中语义损失小于预设值的分词作为所述目标文本的改写候选词。

Description

一种文本改写的方法以及相关设备
技术领域
本发明涉及搜索领域,尤其涉及一种文本改写的方法以及相关设备。
背景技术
在直播平台上,搜索是非常重要的一个入口,用户输入的搜索文本代表用户的某种意图。一个具有良好体验的搜索功能希望在用户输入的文本基础上进行一些模糊改写,改写的目的是扩充用户的意图表达,这样当用户看到改写的搜索文本时可能会认为改写的文本更加符合其意图或者丰富了用户的意图。
然而,现有的改写通常是将相近或者相似得词作为候选,但是,这种改写没有考虑到改写的合理性,也即没有考虑改写后的意思不能违背用户的初衷,例如某些相近或者相似的候选词意思并不相同,也不相近,给用户造成误导,影响用户体验。
发明内容
本发明实施例提供了一种文本改写的方法以及相关设备,用于提高文本改写的合理性,提高用户体验。
本发明实施例的第一方面提供了一种文本改写的方法,包括:
将用户输入的目标文本进行分词,以得到第一分词集合,所述第一分词集合中至少包括一个分词;
对所述第一分词集合中的每个分词分别进行改写,以得到第二分词集合,所述第二分词集合中的各个分词与所述第一分词集合中的各个分词具有关联关系,且所述第一分词集合中的每个分词至少对应所述第二分词集合中的一个分词;
计算所述第二分词集合中的每个分词的语义损失,所述语义损失为所述第一分词集合中的分词与所述第二分词集合中对应的分词的差异度;
确定将所述第二分词集合中语义损失小于预设值的分词作为所述目标文本的改写候选词。
可选地,所述计算所述第二分词集合中的每个分词的语义损失包括:
通过如下公式计算所述第二分词集合中的每个分词的语义损失:
其中,所述α和所述β是权重因子,且α+β=1,所述ε是平滑因子,所述q是所述第一分词集合中的各个分词,所述q0是所述第二分词集合中的各个分词,所述S(q)是所述q的历史行为得分,所述S(q0)是改写搜索文本q0的历史行为得分,所述t是所述q中的任一分词,所述t0是所述q0中的任一分词,所述wt是所述t对应的权重,所述f(t|t0)为将所述t替换为所述t0的收益。
可选地,所述方法还包括:
通过如下公式计算所述S(q):
其中,norm_pv(q)是标准化后的所述q在预设时长被搜索的总次数, norm_click(q)是标准化后的所述q在所述预设时长内搜索点击的次数, norm_clickratio(q)是标准化后的所述q在所述预设时长内的点击率。
可选地,所述方法还包括:
通过如下公式计算所述q在所述预设时长内的点击率:
其中,xir是标准化前的第i个评价指标,min(x′i)为所述预设时长内的所有搜索文本中第i个评价指标的最小值,max(x′i)是所述预设时长内的所有搜索文本中第i个评价指标的最大值。
可选地,所述方法还包括:
通过如下公式计算所述wt
wt=idft*tft*it
其中,tft为所述预设时长内所述t在所述q中出现的频率, N(q,t)为所述预设时长内所述q中所述t出现的次数,N(q)是所述预设时长内所述q出现的总次数,idft为所述预设时长内所述t的倒排文档频率,其中:N是所述预设时长内所有查询的个数,N(t)为所述预设时长内包含所述t的查询个数。
可选地,所述将用户输入的目标文本进行分词,以得到第一分词集合包括:
获取所述用户输入的目标文本;
通过目标分词工具对所述目标文本进行分词,以得到所述第一分词集合。
可选地,所述确定将所述第二分词集合中语义损失小于预设值的分词作为所述目标文本的改写候选词之后,所述方法包括:
按照预设规则对所述目标文本的改写候选词进行展示。
本发明实施例第二方面提供了一种文本改写的装置,包括:
分词单元,用于将用户输入的目标文本进行分词,以得到第一分词集合,所述第一分词集合中至少包括一个分词;
改写单元,用于对所述第一分词集合中的每个分词分别进行改写,以得到第二分词集合,所述第二分词集合中的各个分词与所述第一分词集合中的各个分词具有关联关系,且所述第一分词集合中的每个分词至少对应所述第二分词集合中的一个分词;
计算单元,用于计算所述第二分词集合中的每个分词的语义损失,所述语义损失为所述第一分词集合中的分词与所述第二分词集合中对应的分词的差异度;
确定单元,用于确定将所述第二分词集合中语义损失小于预设值的分词作为所述目标文本的改写候选词。
可选地,所述计算单元具体用于:
通过如下公式计算所述第二分词集合中的每个分词的语义损失:
其中,所述α和所述β是权重因子,且α+β=1,所述ε是平滑因子,所述q是所述第一分词集合中的各个分词,所述q0是所述第二分词集合中的各个分词,所述S(q)是所述q的历史行为得分,所述S(q0)是改写搜索文本q0的历史行为得分,所述t是所述q中的任一分词,所述t0是所述q0中的任一分词,所述wt是所述t对应的权重,所述f(t|t0)为将所述t替换为所述t0的收益。
可选地,所述计算单元还具体用于:
通过如下公式计算所述S(q):
其中,norm_pv(q)是标准化后的所述q在预设时长被搜索的总次数,norm_click(q)是标准化后的所述q在所述预设时长内搜索点击的次数, norm_clickratio(q)是标准化后的所述q在所述预设时长内的点击率。
可选地,所述计算单元还具体用于:
通过如下公式计算所述q在所述预设时长内的点击率:
其中,xir是标准化前的第i个评价指标,min(x′i)为所述预设时长内的所有搜索文本中第i个评价指标的最小值,max(x′i)是所述预设时长内的所有搜索文本中第i个评价指标的最大值。
可选地,所述计算单元还具体用于:
通过如下公式计算所述wt
wt=idft*tft*it
其中,tft为所述预设时长内所述t在所述q中出现的频率, N(q,t)为所述预设时长内所述q中所述t出现的次数,N(q)是所述预设时长内所述q出现的总次数,idft为所述预设时长内所述t的倒排文档频率,其中:N是所述预设时长内所有查询的个数,N(t)为所述预设时长内包含所述t的查询个数。
可选地,所述分词单元具体用于:
获取所述用户输入的目标文本;
通过目标分词工具对所述目标文本进行分词,以得到所述第一分词集合。
可选地,所述装置包括:
展示单元,用于按照预设规则对所述目标文本的改写候选词进行展示。
本发明第三方面提供了一种电子设备,包括存储器、处理器,其特征在于,所述处理器用于执行存储器中存储的计算机管理类程序时实现如上述任意一项所述的文本改写的方法的步骤。
本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机管理类程序,其特征在于:所述计算机管理类程序被处理器执行时实现如上述任意一项所述的文本改写的方法的步骤。
从以上技术方案可以看出,本发明实施例中,将用户输入的目标文本进行分词,以得到第一分词集合,所述第一分词集合中至少包括一个分词;对所述第一分词集集合中的每个分词分别进行改写,以得到第二分词集合,所述第二分词集合中的各个分词与所述第一分词集合中的各个分词具有关联关系,且所述第一分词集合中的每个分词至少对应所述第二分词集合中的一个分词;计算所述第二分词集合中的每个分词的语义损失,所述语义损失为所述第一分词集合中的分词与所述第二分词集合中对应的分词的差异度;确定将所述第二分词集合中语义损失小于预设值的分词作为改写候选词,并将所述改写候选词进行展示。由此可以看出,本申请实施例中,由于计算了第二分词集合中的每个分词的语义损失,同时将第二分词集合中语义损失小于预设值的分词作为改写候选词,也就是保证了将于目标文本的语义损失最小的分词作为目标文本的改写候选词,以供用户选择,这样就保证了改写的合理性。
附图说明
图1为本发明实施例提供的一种文本改写的方法的流程示意图;
图2为本发明实施例提供的一种文本改写的装置的实施例示意图;
图3为本发明实施例提供的一种文本改写的装置的硬件结构示意图;
图4为本发明实施例提供的一种电子设备的实施例示意图;
图5为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
具体实施方式
本发明实施例提供了一种文本改写的方法和相关设备,用于保证文本改写的合理性。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
下面从文本改写的装置的角度对文本改写的方法进行说明,该文本改写的装置可以为服务器,也可以为服务器中的功能单元,具体不限定。
请参阅图1,图1为本发明实施例提供的文本改写的方法的一个实施例示意图,包括:
101、将用户输入的目标文本进行分词,以得到第一分词集合。
本实施例中,文本改写的装置可以将用户输入的用于搜索的目标文本进行分词,以得到第一分词集合,其中,第一分词集合中至少包括一个分词。此处具体不限定如何进行分词,例如利用分词工具进行分词,Stanford NLP 等分词工具,只要能实现分词即可。
102、对第一分词集合中的每个分词分别进行改写,以得到第二分词集合。
本实施例中,文本改写的装置可以对第一分词集合中的每个分词分别进行改写,以得到第二分词集合,其中,第二分词集合中的各个分词与第一分词集合中的各个分词具有关联关系,且第一分词集合中的每个分词至少对应第二分词集合中的一个分词。也就是说,第一分词集合中的每个分词至少有一个改写词。具体的,例如将第一分词集合中的每个分词基于词典的改写,或者将第一分词集合中的每个分词分别基于相似度的改写,具体不做限定,只要能将第一分词中的每个分词进行改写,得到第二分词集合即可。以第一分词集合中包括三个分词为例进行说明,例如第一分词集合中包括:A分词, B分词以及C分词,第一分词集合中的每个分词分别与第二分词集合中三个分词具有关联关系,例如第二分词集合中与A分词具有关联关系的分词分别是 A1分词、A2分词以及A3分词、与B分词具有关联关系的分词分别是B1分词、 B2分词以及B3分词,与C分词具有关联关系的分词分别是C1分词、C2分词以及C3分词。
103、计算第二分词集合中的每个分词的语义损失。
本实施例,文本改写的装置可以通过公式计算第二分词集合中的每个分词相对于第一分词集合中与其对应的分词的语义损失,以上述例子进行说明,例如第二分词集合中的A1分词相对于第一分词集合中的A分词的语义损失为 X,其中语义损失指的就是,第一分词集合中的每个分词与所述第二分词集合中对应的分词的差异度。例如“金龙羽”、“景龙与”或“金龙鱼”之前的差异度。
104、确定将第二分词集合中语义损失小于预设值的分词作为目标文本的改写候选词。
本实施例中,当文本改写的装置计算得到第二分词集合中的每个分词相对于第一分词集合中与之对应的分词的语义损失之后,可以对第二分词集合中所有分词的语义损失进行判断,以确定出第二分词集合中语义损失小于预设值的分词,并将第二分词集合中语义损失小于预设值的分词作为目标文本的改写候选词。
本实施例中,将用户输入的目标文本进行分词,以得到第一分词集合,所述第一分词集合中至少包括一个分词;对所述第一分词集集合中的每个分词分别进行改写,以得到第二分词集合,所述第二分词集合中的各个分词与所述第一分词集合中的各个分词具有关联关系,且所述第一分词集合中的每个分词至少对应所述第二分词集合中的一个分词;计算所述第二分词集合中的每个分词的语义损失,所述语义损失为所述第一分词集合中的分词与所述第二分词集合中对应的分词的差异度;确定将所述第二分词集合中语义损失小于预设值的分词作为改写候选词,并将所述改写候选词进行展示。由此可以看出,本申请实施例中,由于计算了第二分词集合中的每个分词的语义损失,同时将第二分词集合中语义损失小于预设值的分词作为改写候选词,以供用户选择,这样就使得改写候选词与目标文本的语义最接近,也就保证了改写的合理性。
可选地,在上述图1对应的实施例的基础上,本发明实施例提供的文本改写的方法的可选实施例中,计算第二分词集合中的每个分词的语义损失包括:
通过如下公式计算第二分词集合中的每个分词的语义损失:
其中,α和β是权重因子,且α+β=1,ε是平滑因子,q是第一分词集合中的各个分词,q0是所述第二分词集合中的各个分词,S(q)是q的历史行为得分,S(q0)是改写搜索文本q0的历史行为得分,t是q中的任一分词,t0是q0中的任一分词,wt是t对应的权重,f(t|t0)为将t替换为所述t0的收益。
具体的,采用下面公式计算第二分词集合中每个分词相对于第一分词集合中与之对应的分词的语义损失:
其中,f(q|q0)是第二分词集合中每个分词相对于第一分词集合中与之对应的分词的语义损失,q是原始的搜索文本,即目标文本,q0是改写候选的搜索文本,即改写后的第二分词集合。
S(q)是原始搜索文本q的历史行为得分,通过如下公式来计算历史行为的分:
其中,norm_pv(q)是标准化后的搜索文本q在预设时长内被搜索的总次数;
norm_click(q)是标准化后的搜索文本q在预设时长内搜索点击的次数;
norm_clickratio(q)是标准化后的搜索文本q在预设时长内的点击率,点击率的计算方法是搜索点击次数除以搜索次数。
其中,上述所说的标准化的计算方式如下:
其中,xir是标准化前的第i个评价指标,min(x′i)是所有搜索文本中第i 个评价指标的最小值,max(x′i)是所有搜索文本中第i个评价指标的最大值。 S(q0)是改写搜索文本q0的历史行为得分,其计算方法如同S(q)。
t是搜索文本q中出现的词语(即第一分词集合中的分词),wt是词语t 对应的权重,t词语权重的计算方法如下:
wt=idft*tft*it
其中,tft是分词t在搜索文本q中出现的频率,通过如下公式进行计算:
其中:N(q,t)是预设时长内搜索文本q中分词t出现的次数,N(q)是预设时长内搜索文本q的所有词语出现的总次数;idft是预设时长内词t的倒排文档频率,通过如下公式进行计算:
其中:N是预设时长内所有查询的个数,N(t)是预设时长内包含词t的查询个数;
同理t0是搜索改写文本q0中出现的词语,是词语t0对应的权重,权重计算方法,上述已经进行了详细说明,具体此处不再赘述。
it是分词t的重要性系数,需要说明的是,it的设置如下:例如一些重要的主播词、分区词取值为2,其他词语取值为1,当然也可以有其他的取值,此处仅以此为例进行说明,并不代表对此的限定。
f(t|t0)是将分词t改写为t0的收益,收益的计算依赖于候选词的生成方法,特殊地,如果t0为空,表示t0被去除,则f(t|t0)=0;如果t0和t是一样的,表示t没有被改写,则f(t|t0)=1;下面对改写的收益进行举例说明,例如初始的输入为“金龙羽”,通过改写为“金龙鱼”,只改了其中的一个字,改写的收益即为改写了一个字,收益为2/3,假如全部改完,则收益为100%。
α和β是权重因子,且α+β=1,ε是平滑因子。
需要说明的是,上述所说的预设时长可以是7天或者是30天,当然也可以是其他时长,具体不做限定。
综上所述可以看出,通过公式计算出第二分词集合中的每个分词相对于第一分词集合中与之对应的分词的语义损失,提高方案的可实现性。
可选地,在上述图1对应的实施例的基础上,本发明实施例提供的文本改写的方法的可选实施例中,将用户输入的目标文本进行分词,以得到第一分词集合包括:
获取用户输入的目标文本;
通过目标分词工具对目标文本进行分词,以得到第一分词集合。
具体的,文本改写的装置可以首先获取到用书输入的目标文本,并通过目标分词工具对目标文本进行分词,以得到第一分词集合,该目标分词工具例如可以是常用的分词工具,也可以是根据不同的语境定义的定制版本的分词工具,具体此处不做限定。
可选地,在上述图1对应的实施例的基础上,本发明实施例提供的文本改写的方法的可选实施例中,确定将第二分词集合中语义损失小于预设值的分词作为目标文本的改写候选词之后,所述方法包括:
按照预设规则对所述目标文本的改写候选词进行展示。
具体的,当文本改写的装置确定将第二分词集合中语义损失小于预设值的分词作为目标文本的改写候选词之后,可以按照预设规则对目标文本的改写候选词进行展示,例如按照从小到大的排列顺序显示语义损失小于预设值的5组候选词,即从最小的语义损失的分组候选词依次显示5组候选词,每一组候选词分别于第一分词集合相对应,或者,按照从大到小的排列顺序显示语义损失最小的5组候选词,或者,直接将语义损失最小的分组候选词进行显示。
上面对本发明实施例中文本改写的方法进行了描述,下面对本发明实施例中的文本改写的装置进行描述。
请参阅图2,图2为本发明实施例提供的文本改写的装置的一个实施例示意图,具体包括:
分词单元201,用于将用户输入的目标文本进行分词,以得到第一分词集合,所述第一分词集合中至少包括一个分词;
改写单元202,用于对所述第一分词集合中的每个分词分别进行改写,以得到第二分词集合,所述第二分词集合中的各个分词与所述第一分词集合中的各个分词具有关联关系,且所述第一分词集合中的每个分词至少对应所述第二分词集合中的一个分词;
计算单元203,用于计算所述第二分词集合中的每个分词的语义损失,所述语义损失为所述第一分词集合中的分词与所述第二分词集合中对应的分词的差异度;
确定单元204,用于确定将所述第二分词集合中语义损失小于预设值的分词作为所述目标文本的改写候选词。
可选地,所述计算单元203具体用于:
通过如下公式计算所述第二分词集合中的每个分词的语义损失:
其中,所述α和所述β是权重因子,且α+β=1,所述ε是平滑因子,所述q是所述第一分词集合中的各个分词,所述q0是所述第二分词集合中的各个分词,所述S(q)是所述q的历史行为得分,所述S(q0)是改写搜索文本q0的历史行为得分,所述t是所述q中的任一分词,所述t0是所述q0中的任一分词,所述wt是所述t对应的权重,所述f(t|t0)为将所述t替换为所述t0的收益。
可选地,所述计算单元203还具体用于:
通过如下公式计算所述S(q):
其中,norm_pv(q)是标准化后的所述q在预设时长被搜索的总次数, norm_click(q)是标准化后的所述q在所述预设时长内搜索点击的次数, norm_clickratio(q)是标准化后的所述q在所述预设时长内的点击率。
可选地,所述计算单元203还具体用于:
通过如下公式计算所述q在所述预设时长内的点击率:
其中,xir是标准化前的第i个评价指标,min(x′i)为所述预设时长内的所有搜索文本中第i个评价指标的最小值,max(x′i)是所述预设时长内的所有搜索文本中第i个评价指标的最大值。
可选地,所述计算单元203还具体用于:
通过如下公式计算述wt
wt=idft*tft*it
其中,tft为所述预设时长内所述t在所述q中出现的频率, N(q,t)为所述预设时长内所述q中所述t出现的次数,N(q)是所述预设时长内所述q出现的总次数,idft为所述预设时长内所述t的倒排文档频率,其中:N是所述预设时长内所有查询的个数,N(t)为所述预设时长内包含所述t的查询个数。
可选地,所述分词单元201具体用于:
获取所述用户输入的目标文本;
通过目标分词工具对所述目标文本进行分词,以得到所述第一分词集合。
可选地,所述装置包括:
展示单元205,用于按照预设规则对所述目标文本的改写候选词进行展示。
综上所述,本申请实施例中,由于计算了第二分词集合中的每个分词的语义损失,同时将第二分词集合中语义损失小于预设值的分词作为改写候选词,以供用户选择,这样就使得改写候选词与目标文本的语义最接近,也就保证了改写的合理性。
上面图2从模块化功能实体的角度对本发明实施例中的文本改写的装置进行了描述,下面从硬件处理的角度对本发明实施例中的文本改写的装置进行详细描述,请参阅图3,本发明实施例中的文本改写的装置300一个实施例,包括:
输入装置301、输出装置302、处理器303和存储器304(其中处理器303 的数量可以一个或多个,图3中以一个处理器303为例)。在本发明的一些实施例中,输入装置301、输出装置302、处理器303和存储器304可通过总线或其它方式连接,其中,图3中以通过总线连接为例。
其中,通过调用存储器304存储的操作指令,处理器303,用于执行如下步骤:
将用户输入的目标文本进行分词,以得到第一分词集合,所述第一分词集合中至少包括一个分词;
对所述第一分词集合中的每个分词分别进行改写,以得到第二分词集合,所述第二分词集合中的各个分词与所述第一分词集合中的各个分词具有关联关系,且所述第一分词集合中的每个分词至少对应所述第二分词集合中的一个分词;
计算所述第二分词集合中的每个分词的语义损失,所述语义损失为所述第一分词集合中的分词与所述第二分词集合中对应的分词的差异度;
确定将所述第二分词集合中语义损失小于预设值的分词作为所述目标文本的改写候选词。
可选地,所述计算所述第二分词集合中的每个分词的语义损失包括:
通过如下公式计算所述第二分词集合中的每个分词的语义损失:
其中,所述α和所述β是权重因子,且α+β=1,所述ε是平滑因子,所述q是所述第一分词集合中的各个分词,所述q0是所述第二分词集合中的各个分词,所述S(q)是所述q的历史行为得分,所述S(q0)是改写搜索文本q0的历史行为得分,所述t是所述q中的任一分词,所述t0是所述q0中的任一分词,所述wt是所述t对应的权重,所述f(t|t0)为将所述t替换为所述t0的收益。
可选地,通过调用存储器304存储的操作指令,处理器303,用于执行如下步骤:
通过如下公式计算所述S(q):
其中,norm_pv(q)是标准化后的所述q在预设时长被搜索的总次数, norm_click(q)是标准化后的所述q在所述预设时长内搜索点击的次数, norm_clickratio(q)是标准化后的所述q在所述预设时长内的点击率。
可选地,通过调用存储器304存储的操作指令,处理器303,用于执行如下步骤:
通过如下公式计算所述q在所述预设时长内的点击率:
其中,xir是标准化前的第i个评价指标,min(x′i)为所述预设时长内的所有搜索文本中第i个评价指标的最小值,max(x′i)是所述预设时长内的所有搜索文本中第i个评价指标的最大值。
可选地,通过调用存储器304存储的操作指令,处理器303,用于执行如下步骤:
通过如下公式计算所述wt
wt=idft*tft*it
其中,tft为所述预设时长内所述t在所述q中出现的频率, N(q,t)为所述预设时长内所述q中所述t出现的次数,N(q)是所述预设时长内所述q出现的总次数,idft为所述预设时长内所述t的倒排文档频率,其中:N是所述预设时长内所有查询的个数,N(t)为所述预设时长内包含所述t的查询个数。
可选地,所述将用户输入的目标文本进行分词,以得到第一分词集合包括:
获取所述用户输入的目标文本;
通过目标分词工具对所述目标文本进行分词,以得到所述第一分词集合。
可选地,所述确定将所述第二分词集合中语义损失小于预设值的分词作为所述目标文本的改写候选词之后,按照预设规则对所述目标文本的改写候选词进行展示。
请参阅图4,图4为本发明实施例提供的电子设备的实施例示意图。
如图4所示,本发明实施例提供了一种电子设备,包括存储器410、处理器420及存储在存储器420上并可在处理器420上运行的计算机程序411,处理器420执行计算机程序411时实现以下步骤:
将用户输入的目标文本进行分词,以得到第一分词集合,所述第一分词集合中至少包括一个分词;
对所述第一分词集合中的每个分词分别进行改写,以得到第二分词集合,所述第二分词集合中的各个分词与所述第一分词集合中的各个分词具有关联关系,且所述第一分词集合中的每个分词至少对应所述第二分词集合中的一个分词;
计算所述第二分词集合中的每个分词的语义损失,所述语义损失为所述第一分词集合中的分词与所述第二分词集合中对应的分词的差异度;
确定将所述第二分词集合中语义损失小于预设值的分词作为所述目标文本的改写候选词。
在具体实施过程中,处理器420执行计算机程序411时,可以实现图1 对应的实施例中任一实施方式。
由于本实施例所介绍的电子设备为实施本发明实施例中一种文本改写的装置所采用的设备,故而基于本发明实施例中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本发明实施例中的方法不再详细介绍,只要本领域所属技术人员实施本发明实施例中的方法所采用的设备,都属于本发明所欲保护的范围。
请参阅图5,图5为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
如图5所示,本实施例提供了一种计算机可读存储介质500,其上存储有计算机程序511,该计算机程序511被处理器执行时实现如下步骤:
将用户输入的目标文本进行分词,以得到第一分词集合,所述第一分词集合中至少包括一个分词;
对所述第一分词集合中的每个分词分别进行改写,以得到第二分词集合,所述第二分词集合中的各个分词与所述第一分词集合中的各个分词具有关联关系,且所述第一分词集合中的每个分词至少对应所述第二分词集合中的一个分词;
计算所述第二分词集合中的每个分词的语义损失,所述语义损失为所述第一分词集合中的分词与所述第二分词集合中对应的分词的差异度;
确定将所述第二分词集合中语义损失小于预设值的分词作为所述目标文本的改写候选词。
在具体实施过程中,该计算机程序511被处理器执行时可以实现图1对应的实施例中任一实施方式。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机软件指令,当计算机软件指令在处理设备上运行时,使得处理设备执行如图1对应实施例中的风电场数字化平台设计的方法中的流程。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如, DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修该,或者对其中部分技术特征进行等同替换;而这些修该或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种文本改写的方法,其特征在于,包括:
将用户输入的目标文本进行分词,以得到第一分词集合,所述第一分词集合中至少包括一个分词;
对所述第一分词集合中的每个分词分别进行改写,以得到第二分词集合,所述第二分词集合中的各个分词与所述第一分词集合中的各个分词具有关联关系,且所述第一分词集合中的每个分词至少对应所述第二分词集合中的一个分词;
计算所述第二分词集合中的每个分词的语义损失,所述语义损失为所述第一分词集合中的分词与所述第二分词集合中对应的分词的差异度;
确定将所述第二分词集合中语义损失小于预设值的分词作为所述目标文本的改写候选词。
2.根据权利要求1所述的方法,其特征在于,所述计算所述第二分词集合中的每个分词的语义损失包括:
通过如下公式计算所述第二分词集合中的每个分词的语义损失:
其中,所述α和所述β是权重因子,且α+β=1,所述ε是平滑因子,所述q是所述第一分词集合中的各个分词,所述q0是所述第二分词集合中的各个分词,所述S(q)是所述q的历史行为得分,所述S(q0)是改写搜索文本q0的历史行为得分,所述t是所述q中的任一分词,所述t0是所述q0中的任一分词,所述wt是所述t对应的权重,所述f(t|t0)为将所述t替换为所述t0的收益。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
通过如下公式计算所述S(q):
其中,norm_pv(q)是标准化后的所述q在预设时长被搜索的总次数,norm_click(q)是标准化后的所述q在所述预设时长内搜索点击的次数,norm_clickratio(q)是标准化后的所述q在所述预设时长内的点击率。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
通过如下公式计算所述q在所述预设时长内的点击率:
其中,xir是标准化前的第i个评价指标,min(x′i)为所述预设时长内的所有搜索文本中第i个评价指标的最小值,max(x′i)是所述预设时长内的所有搜索文本中第i个评价指标的最大值。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
通过如下公式计算所述wt
wt=idft*tft*it
其中,tft为所述预设时长内所述t在所述q中出现的频率,N(q,t)为所述预设时长内所述q中所述t出现的次数,N(q)是所述预设时长内所述q出现的总次数,idft为所述预设时长内所述t的倒排文档频率,其中:N是所述预设时长内所有查询的个数,N(t)为所述预设时长内包含所述t的查询个数。
6.根据权利要求1或2所述的方法,其特征在于,所述将用户输入的目标文本进行分词,以得到第一分词集合包括:
获取所述用户输入的目标文本;
通过目标分词工具对所述目标文本进行分词,以得到所述第一分词集合。
7.根据权利要求1或2所述的方法,其特征在于,所述确定将所述第二分词集合中语义损失小于预设值的分词作为所述目标文本的改写候选词之后,所述方法包括:
按照预设规则对所述目标文本的改写候选词进行展示。
8.一种文本改写的装置,其特征在于,包括:
分词单元,用于将用户输入的目标文本进行分词,以得到第一分词集合,所述第一分词集合中至少包括一个分词;
改写单元,用于对所述第一分词集合中的每个分词分别进行改写,以得到第二分词集合,所述第二分词集合中的各个分词与所述第一分词集合中的各个分词具有关联关系,且所述第一分词集合中的每个分词至少对应所述第二分词集合中的一个分词;
计算单元,用于计算所述第二分词集合中的每个分词的语义损失,所述语义损失为所述第一分词集合中的分词与所述第二分词集合中对应的分词的差异度;
确定单元,用于确定将所述第二分词集合中语义损失小于预设值的分词作为所述目标文本的改写候选词。
9.一种电子设备,包括存储器、处理器,其特征在于,所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1至7中任意一项所述的文本改写的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机管理类程序,其特征在于:所述计算机管理类程序被处理器执行时实现如权利要求1至7中任意一项所述的文本改写的方法的步骤。
CN201810709347.1A 2018-07-02 2018-07-02 一种文本改写的方法以及相关设备 Active CN109117475B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810709347.1A CN109117475B (zh) 2018-07-02 2018-07-02 一种文本改写的方法以及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810709347.1A CN109117475B (zh) 2018-07-02 2018-07-02 一种文本改写的方法以及相关设备

Publications (2)

Publication Number Publication Date
CN109117475A true CN109117475A (zh) 2019-01-01
CN109117475B CN109117475B (zh) 2022-08-16

Family

ID=64822138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810709347.1A Active CN109117475B (zh) 2018-07-02 2018-07-02 一种文本改写的方法以及相关设备

Country Status (1)

Country Link
CN (1) CN109117475B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740161A (zh) * 2019-01-08 2019-05-10 北京百度网讯科技有限公司 数据泛化方法、装置、设备和介质
CN111310419A (zh) * 2020-02-26 2020-06-19 支付宝(杭州)信息技术有限公司 对词语改写候选集进行更新的方法及装置
CN111401038A (zh) * 2020-02-26 2020-07-10 支付宝(杭州)信息技术有限公司 文本处理方法、装置、电子设备及存储介质
CN111476003A (zh) * 2020-03-12 2020-07-31 支付宝(杭州)信息技术有限公司 歌词改写方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408897A (zh) * 2008-10-10 2009-04-15 清华大学 一种基于协作过滤的个性化查询扩展方法
JP2010182287A (ja) * 2008-07-17 2010-08-19 Steven C Kays 適応型インテリジェント・デザイン
CA2776140A1 (en) * 2011-05-03 2012-11-03 Graeme John Hirst Method and system of longitudinal detection of dementia through lexical and syntactic changes in writing
CN103729359A (zh) * 2012-10-12 2014-04-16 阿里巴巴集团控股有限公司 一种推荐搜索词的方法及系统
US20160125028A1 (en) * 2014-11-05 2016-05-05 Yahoo! Inc. Systems and methods for query rewriting
CN105930400A (zh) * 2016-04-15 2016-09-07 南京大学 一种基于马尔科夫决策过程模型的会话搜索方法
CN106557480A (zh) * 2015-09-25 2017-04-05 阿里巴巴集团控股有限公司 查询改写的实现方法及装置
US20170242913A1 (en) * 2016-02-18 2017-08-24 Adobe Systems Incorporated Analyzing search queries to provide potential search query modifications via interactive user-interfaces
CN107239455A (zh) * 2016-03-28 2017-10-10 阿里巴巴集团控股有限公司 核心词识别方法及装置
CN107291914A (zh) * 2017-06-27 2017-10-24 达而观信息科技(上海)有限公司 一种生成搜索引擎查询扩展词的方法及系统
CN108182200A (zh) * 2017-11-29 2018-06-19 有米科技股份有限公司 基于语义相似度的关键词拓展方法和装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010182287A (ja) * 2008-07-17 2010-08-19 Steven C Kays 適応型インテリジェント・デザイン
CN101408897A (zh) * 2008-10-10 2009-04-15 清华大学 一种基于协作过滤的个性化查询扩展方法
CA2776140A1 (en) * 2011-05-03 2012-11-03 Graeme John Hirst Method and system of longitudinal detection of dementia through lexical and syntactic changes in writing
CN103729359A (zh) * 2012-10-12 2014-04-16 阿里巴巴集团控股有限公司 一种推荐搜索词的方法及系统
US20160125028A1 (en) * 2014-11-05 2016-05-05 Yahoo! Inc. Systems and methods for query rewriting
CN106557480A (zh) * 2015-09-25 2017-04-05 阿里巴巴集团控股有限公司 查询改写的实现方法及装置
US20170242913A1 (en) * 2016-02-18 2017-08-24 Adobe Systems Incorporated Analyzing search queries to provide potential search query modifications via interactive user-interfaces
CN107239455A (zh) * 2016-03-28 2017-10-10 阿里巴巴集团控股有限公司 核心词识别方法及装置
CN105930400A (zh) * 2016-04-15 2016-09-07 南京大学 一种基于马尔科夫决策过程模型的会话搜索方法
CN107291914A (zh) * 2017-06-27 2017-10-24 达而观信息科技(上海)有限公司 一种生成搜索引擎查询扩展词的方法及系统
CN108182200A (zh) * 2017-11-29 2018-06-19 有米科技股份有限公司 基于语义相似度的关键词拓展方法和装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
DOUG BEEFERMAN ET AL: "Agglomerative clustering of a search engine query log", 《PROCEEDINGS OF THE SIXTH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 *
HANG CUI ET AL: "Query Expansion by Mining User Logs", 《IEEE TRANSACTION ON KNOWLEDGE AND DATA ENGINEERING》 *
PO-SEN HUANG ET AL: "Learning Deep Structure Semantic Model for Web Search using Clicktrough data", 《PROCEEDINGS OF THE 22ND ACM INTERNATIONAL CONFERENCE ON INFORMATION & KNOWLEDGE MANAGEMENT》 *
安冲: "一种在搜索日志中挖掘用户搜索意图并推荐相关搜索词的", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑(月刊)》 *
宋连坡: "基于语义信息的查询改写研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑(季刊)》 *
欧阳柳波 等: "一种基于本体和用户日志的查询扩展方法", 《计算机工程与应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740161A (zh) * 2019-01-08 2019-05-10 北京百度网讯科技有限公司 数据泛化方法、装置、设备和介质
CN111310419A (zh) * 2020-02-26 2020-06-19 支付宝(杭州)信息技术有限公司 对词语改写候选集进行更新的方法及装置
CN111401038A (zh) * 2020-02-26 2020-07-10 支付宝(杭州)信息技术有限公司 文本处理方法、装置、电子设备及存储介质
CN111310419B (zh) * 2020-02-26 2023-04-28 支付宝(杭州)信息技术有限公司 对词语改写候选集进行更新的方法及装置
CN111401038B (zh) * 2020-02-26 2023-10-27 支付宝(杭州)信息技术有限公司 文本处理方法、装置、电子设备及存储介质
CN111476003A (zh) * 2020-03-12 2020-07-31 支付宝(杭州)信息技术有限公司 歌词改写方法及装置

Also Published As

Publication number Publication date
CN109117475B (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
JP7087079B2 (ja) 深層学習アプリケーションのための堅牢な勾配重み圧縮方式
CN109117475A (zh) 一种文本改写的方法以及相关设备
CN105893349B (zh) 类目标签匹配映射方法及装置
CN107220217A (zh) 基于逻辑回归的特征系数训练方法和装置
CN110377759A (zh) 事件关系图谱构建方法及装置
WO2022083093A1 (zh) 图谱中的概率计算方法、装置、计算机设备及存储介质
CN107908796A (zh) 电子政务查重方法、装置以及计算机可读存储介质
US20210286763A1 (en) Suggesting a destination folder for a file to be saved
CN108182182A (zh) 翻译数据库中文档匹配方法、装置及计算机可读存储介质
CN110147389A (zh) 帐号处理方法和装置、存储介质及电子装置
CN110363575A (zh) 一种授信用户动支意愿预测方法、装置和设备
CN108304382A (zh) 基于制造过程文本数据挖掘的质量分析方法与系统
US10482162B2 (en) Automatic equation transformation from text
CN109325530A (zh) 基于少量无标签数据的深度卷积神经网络的压缩方法
CN113204614B (zh) 模型训练方法、优化训练数据集的方法及其装置
CN109376362A (zh) 一种纠错文本的确定方法以及相关设备
CN109299463A (zh) 一种情感得分的计算方法以及相关设备
CN117291722A (zh) 对象管理方法、相关设备及计算机可读介质
CN109977977A (zh) 一种识别潜在用户的方法及对应装置
CN109871540A (zh) 一种文本相似度的计算方法以及相关设备
CN107562714A (zh) 一种语句相似度计算方法及装置
CN110705889A (zh) 一种企业筛选方法、装置、设备及存储介质
CN110245230A (zh) 一种图书分级方法、系统、存储介质和服务器
CN110215703A (zh) 游戏应用的选择方法、装置及系统
CN114357180A (zh) 知识图谱的更新方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant