CN106055623A - 一种跨语言推荐方法和系统 - Google Patents

一种跨语言推荐方法和系统 Download PDF

Info

Publication number
CN106055623A
CN106055623A CN201610363346.7A CN201610363346A CN106055623A CN 106055623 A CN106055623 A CN 106055623A CN 201610363346 A CN201610363346 A CN 201610363346A CN 106055623 A CN106055623 A CN 106055623A
Authority
CN
China
Prior art keywords
bilingual
model
term
word
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610363346.7A
Other languages
English (en)
Inventor
符文君
陈勇
魏圣磊
王鹏
王云飞
张振海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
" Academic Magazine (cd-Rom) " Co Ltd Of E-Magazine Society
Original Assignee
" Academic Magazine (cd-Rom) " Co Ltd Of E-Magazine Society
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by " Academic Magazine (cd-Rom) " Co Ltd Of E-Magazine Society filed Critical " Academic Magazine (cd-Rom) " Co Ltd Of E-Magazine Society
Priority to CN201610363346.7A priority Critical patent/CN106055623A/zh
Publication of CN106055623A publication Critical patent/CN106055623A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web

Abstract

本发明公开了一种跨语言推荐方法和系统,包括:基于用户检索会话日志构建及更新的双语检索词向量模型,挖掘双语检索词间的关联性;基于中英双语平行语料库构建及更新的双语概念向量模型,建立并更新概念词向量模型,挖掘相关的双语概念;检索串预处理模块,解析用户输入检索串,过滤噪声字符;基于双语检索词向量模型和双语概念词向量模型构建的推荐词计算模块,查找计算相似推荐词;长尾检索词处理模块,对不常见的低频检索词,经过检索词改写和同义词查找处理;结果输出模块,将经过后处理的推荐词呈现给用户。该发明无需在线人工翻译,提高了用户的检索效率,通过长尾检索词的相关检索词推荐方法,提高了推荐覆盖率,扩大了相关检索词的支持范围,通过动态更新推荐模型的机制,使模型能及时反映检索系统用户关注的最新研究热点和研究趋势。

Description

一种跨语言推荐方法和系统
技术领域
本发明涉及信息检索和推荐系统的技术领域,尤其涉及一种跨语言推荐方法和系统。
背景技术
互联网的发展为无国界知识共享提供了基础条件,随着文献信息的日益增长,用户对中外文文献的检索需求日渐丰富。海量学术资源的有效筛选离不开合理的检索策略。用户在检索中文文献时,通常也迫切希望了解相应研究方向的国外研究动态;由于申报国家课题项目等需要,在检索外文文献时,对相关的国内动态也有所需求。由于语言的表达本身具有多样性,对于中国人来说,检索外文文献资源的主要问题在于用户往往不知道应该如何用专业英文术语表达自己的需求,而在表达的时候由于语言水平的局限性,也会带来部分错误。这也增加了用户使用英文进行检索的难度。此外,如何以合适的中文检索词找到相应同一方向的中文文献,开拓研究思路,也是用户在检索外文文献时的一大问题。因此,如何对用户进行智能引导,推荐双语相关检索词,帮助用户表达检索需求,找到所需资源,扩展知识发现的范围,了解专业领域国内外同行的研究趋势,是学术文献搜索系统的重要一环,目前的相关检索词推荐系统存在的问题包括:(1)往往只考虑同语言层面上的推荐;(2)用户检索词呈现长尾分布,缺乏合理的策略处理长尾查询词;(3)建立模型时没有考虑动态更新问题,由于文献资源的特殊性,用户检索词的时效性很强,静态的模型难以反映用户关注的最新研究热点和可能的最新研究趋势。
发明内容
为实现上述目的,本发明提供如下技术方案:一种跨语言推荐方法和系统,包括双语检索词向量模型模块,基于用户检索会话日志,建立并更新检 索词向量模型,挖掘用户检索会话中双语query的关联性;双语概念词向量模型模块,基于中英双语文献平行语料库,建立并更新概念词向量模型,挖掘相关的双语概念;检索串预处理模块,是对用户输入的检索串进行解析,并过滤其中夹杂的噪声字符;推荐词计算模块,基于双语检索词向量模型和双语概念词向量模型,查找相似性最高的检索词推荐给用户;长尾检索词处理模块,针对不常见的低频检索词,通过检索词改写和同义词查找方法,提高相关检索词的推荐覆盖率;推荐词后处理模块,通过邻近词拼接、相似词过滤等技术手段来提高、改善用户体验;结果输出模块,将经过后处理的推荐词呈现给用户。具体步骤如下:
步骤一:双语检索词向量模型模块,主要基于用户检索会话日志,用户的检索会话中,往往蕴含了双语query,例如,用户在用中文检索后,可能还会在同一会话中,再次检索相关的英文检索词,例如,用户在同一检索会话中,既检索了“机器学习”,又检索了“machine learning”和“machine learning algorithms”,所以,通过对同一会话中的双语query序列建模,可以有效地将双语query间的关联性挖掘出来。
模型的构建主要分三步:首先,从用户检索日志中,提取并预处理含有双语检索词的会话数据,然后,将双语检索词组织成待用的模型训练数据,最后,基于word embedding模型训练得到双语检索词向量。具体如下:(1)会话提取、预处理,首先,根据时间间隔切分检索会话,将时间间隔设为15分钟,其次,从会话数据中提取检索属性和行为等必要的文本数据,包括用户检索词等,最后,过滤不合法query,如HTML字符,标点符号等,保留需要的含有双语检索词的会话数据;(2)生成训练数据,根据采用的词向量模型需求,将预处理后会话中的双语检索词序列,组织成待用的文本训练数据集,每个会话对应训练数据集中的一个样本;(3)训练双语检索词向量模型,根据预设的无监督word embedding模型及参数,在文本训练数据集上,训练 双语检索词向量模型;
模型的更新主要分三步,首先,从新生成的用户检索日志中,提取并预处理含有双语检索词的会话数据,然后,将双语检索词组织成待用的模型训练数据,最后,加载原有双语检索词向量模型,采用动态增量更新方式对双语检索词向量进行更新。具体如下:(1)更新会话数据,基于新生成或搜集得到的用户日志数据,提取并预处理会话数据;(2)更新训练数据,根据新的会话数据,更新原有训练数据集;(3)动态增量更新双语检索词向量模型,基于原模型词汇表及双语检索词向量,采用动态增量更新方式,更新双语检索词向量模型及词汇表;
步骤二:双语概念词向量模型模块,主要基于中英双语文献平行语料库,建立概念词向量模型,挖掘相关的双语概念,更新模型。模型的构建主要分两步:首先,从中英双语文献平行语料库中,提取平行语料数据,组织成待用的模型训练数据,然后,基于双语wordembedding模型训练得到双语概念词向量。具体如下:(1)构建双语训练数据,首先,从中英双语文献平行语料库中,提取平行语料数据,平行语料主要包括双语关键词,然后,按模型需求组织成待用的模型训练数据集,一篇文献的关键词序列构成了训练数据集中的一个样本;(2)训练双语概念词向量模型,根据预设的模型及参数,在文本训练数据集上,训练双语概念词向量模型。模型的更新主要分两步:首先,更新中英双语文献平行语料数据,然后,加载原有双语概念词向量模型,采用动态增量更新方式对双语概念词词向量进行更新。具体如下:(1)更新双语训练数据,首先,获取新中英双语文献平行语料数据,然后,从中提取平行语料数据,最后,按模型需求,组织并更新待用的模型训练数据集;(2)动态增量更新双语概念词向量模型,基于原模型词汇表及双语概念词向量,采用动态增量更新方式,更新双语概念词向量模型及词汇表;
步骤三:检索串预处理模块,检索串预处理主要用于解析用户输入检索串,过滤噪声字符;
步骤四:推荐词计算模块,基于双语检索词向量模型和双语概念词向量模型,首先,对现有词向量模型进行单位化处理,然后,根据预设的向量夹角余弦相似度计算公式,在两个模型中,分别计算检索词和可能的推荐词之间的相似度,最后,按预设的权重合并,排序输出相似性最高的前K个推荐词,K为预先指定的数目,本实施例中,K取20。具体如下:首先,模型预处理,单位化两模型词向量,预处理主要包括检查并单位化两模型的词向量,其次,计算检索词与模型词向量的相似度,采用基于余弦度量法及预设权重的方法,具体公式如余弦度量法(cosine measure),其中: 表示向量的长度(模),加权相似度(weighted similarity),sim(x,y)=α·sim1(x,y)+(1-α)·sim2(x,y),其中,simi(x,y)为各模型对应的相似度,sim(x,y)为计算得到的最终相似度,α为预设的权重(默认0.5),最后,排序输出最相似的前K个推荐词,K为预先指定的数目,本发明中取20;
步骤五:长尾检索词处理模块,长尾检索词处理主要包括检索词改写和同义词查找。检索词改写,基于编辑距离策略,同义词查找策略包括缩略语还原扩展、基于同义词典查找和拼音翻译,同义词查找,具体方法包括:缩略语还原,基于同义词典查找,拼音翻译。具体如下:第一,基于编辑距离算法,对检索词进行改写后,重新查找,首先基于预设的策略或算法,对检索词进行改写,本发明中采用基于编辑距离的方法,然后返回步骤四中的计算检索词与模型词向量的相似度,重新查找相应的相似性最高的检索词作为推荐结果;第二,基于缩略语还原、同义词典及拼音翻译方法,查找同义词,缩略语还原,通过查找缩略语词典,将还原后的全称作为推荐结果,本发明 中,缩略语词典的词条数据格式为<英文缩略语,英文全称,中文释义>,如检索词为NER,缩略语词典中该缩略语对应的英文全称是“NameEntity Recognition”,中文释义为“命名实体识别”,则将“Name Entity Recognition”和“命名实体识别”作为推荐结果返回给用户,基于同义词典查找,通过查找预设的同义词典,或其他资源(如:WordNet),将得到的同义词作为推荐结果,拼音翻译,对检索词进行拼音识别,如果识别出检索词为拼音,通过拼音-汉字词典、隐马尔科夫模型等方法,将拼音翻译为汉字,作为推荐结果;
步骤六:推荐词后处理模块,推荐词的后处理旨在改善、提高用户体验,主要包括邻近词拼接、相似词过滤等。
步骤七:结果输出模块,将推荐词反馈给用户。
优选的,在步骤一和步骤二中,采用的动态增量更新词向量模型的具体步骤如下:1、加载原模型词汇表;2、遍历新增训练数据,更新词汇表;3、加载原词向量模型,并随机初始化新增单词对应的向量;4、遍历新增训练数据,利用负采样方法及随机梯度下降算法,迭代更新词向量;5、达到预设的迭代次数后,输出更新后的词向量模型及词汇表。
与现有技术相比,本发明的有益效果是:本发明通过提出了一种有效的跨语言推荐建模方法,无需在线人工翻译,提高了用户的检索效率;通过提出了一种长尾检索词的相关检索词推荐方法,提高了推荐覆盖率,扩大了相关检索词的支持范围;通过提出了一种动态更新推荐模型的机制,使模型能及时反映检索系统用户关注的最新研究热点和研究趋势。
附图说明
图1为本发明的系统构成图;
图2为本发明的双语检索词向量模型建立和更新示意图;
图3为本发明的无监督词向量模型示意图;
图4为本发明的双语概念词向量模型建立和更新示意图;
图5为本发明的动态增量更新词向量模型的流程示意图;
图6为本发明的推荐词计算示意图;
图7为本发明的长尾检索词处理示意图。
图中:S1双语检索词向量模型模块、S2双语概念词向量模型模块、S3检索串预处理模块、S4推荐词计算模块、S5长尾检索词处理模块、S6推荐词后处理模块、S7结果输出模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-7实施例。
一种跨语言推荐方法和系统,包括双语检索词向量模型模块,基于用户检索会话日志,建立并更新检索词向量模型,挖掘用户检索会话中双语query的关联性;双语概念词向量模型模块,基于中英双语文献平行语料库,建立并更新概念词向量模型,挖掘相关的双语概念;检索串预处理模块,是对用户输入的检索串进行解析,并过滤其中夹杂的噪声字符;推荐词计算模块,基于双语检索词向量模型和双语概念词向量模型,查找相似性最高的检索词推荐给用户;长尾检索词处理模块,针对不常见的低频检索词,通过检索词改写和同义词查找方法,提高相关检索词的推荐覆盖率;推荐词后处理模块,通过邻近词拼接、相似词过滤等技术手段来提高、改善用户体验;结果输出模块,将经过后处理的推荐词呈现给用户。具体步骤如下:
步骤一:双语检索词向量模型模块,主要基于用户检索会话日志,用户的检索会话中,往往蕴含了双语query,例如,用户在用中文检索后,可能还会在同一会话中,再次检索相关的英文检索词,例如,用户在同一检索会话 中,既检索了“机器学习”,又检索了“machine learning”和“machine learning algorithms”,所以,通过对同一会话中的双语query序列建模,可以有效地将双语query间的关联性挖掘出来。
模型的构建主要分三步:首先,从用户检索日志中,提取并预处理含有双语检索词的会话数据,然后,将双语检索词组织成待用的模型训练数据,最后,基于word embedding模型训练得到双语检索词向量。具体如下:(1)会话提取、预处理,首先,根据时间间隔切分检索会话,将时间间隔设为15分钟,其次,从会话数据中提取检索属性和行为等必要的文本数据,包括用户检索词等,最后,过滤不合法query,如HTML字符,标点符号等,保留需要的含有双语检索词的会话数据;(2)生成训练数据,根据采用的词向量模型需求,将预处理后会话中的双语检索词序列,组织成待用的文本训练数据集,每个会话对应训练数据集中的一个样本;(3)训练双语检索词向量模型,根据预设的无监督word embedding模型及参数,在文本训练数据集上,训练双语检索词向量模型。本实施例中,采用的词向量模型为skip-gram模型或CBOW模型。Skip-gram模型和CBOW模型都是已知的模型,算法具体可以参见:Mikolov,Tomas,et al."Distributed representations of words and phrases andtheir
compositionality."Advances in Neural Information ProcessingSystems.2013,在此不再说明。
模型的更新主要分三步:首先,从新生成的用户检索日志中,提取并预处理含有双语检索词的会话数据,然后,将双语检索词组织成待用的模型训练数据,最后,加载原有双语检索词向量模型,采用动态增量更新方式对双语检索词向量进行更新。具体如下:(1)更新会话数据,基于新生成或搜集得到的用户日志数据,提取并预处理会话数据;(2)更新训练数据,根据新的会话数据,更新原有训练数据集;(3)动态增量更新双语检索词向量模型,基于原模型词汇表及双语检索词向量,采用动态增量更新方式,更新双语检索词向量模型及词汇表;
步骤二:双语概念词向量模型模块,主要基于中英双语文献平行语料库,建立概念词向量模型,挖掘相关的双语概念,更新模型。模型的构建主要分两步:首先,从中英双语文献平行语料库中,提取平行语料数据,组织成待用的模型训练数据,然后,基于双语wordembedding模型训练得到双语概念词向量。具体如下:(1)构建双语训练数据,首先,从中英双语文献平行语料库中,提取平行语料数据,平行语料主要包括双语关键词,然后,按模型需求组织成待用的模型训练数据集,一篇文献的关键词序列构成了训练数据集中的一个样本;(2)训练双语概念词向量模型,根据预设的BILBOWA模型及参数,在文本训练数据集上,训练双语概念词向量模型;本实施例中,采用的双语词向量模型为BILBOWA模型,该模型为已知模型,具体算法参见Gouws S,Bengio Y,Corrado G.BilBOWA:Fast BilingualDistributed Representations without Word Alignments[J],在此不再说明。模型的更新主要分两步:首先,更新中英双语文献平行语料数据,然后,加载原有双语概念词向量模型,采用动态增量更新方式对双语概念词词向量进行更新。具体如下:(1)更新双语训练数据,首先,获取新中英双语文献平行语料数据,然后,从中提取平行语料数据,最后,按模型需求,组织并更新待用的模型训练数据集;(2)动态增量更新双语概念词向量模型,基于原模型词汇表及双语概念词向量,采用动态增量更新方式,更新双语概念词向量模型及词汇表。
在步骤一和步骤二中,采用的动态增量更新词向量模型的具体步骤如下:1、加载原模型词汇表;2、遍历新增训练数据,更新词汇表;3、加载原词向量模型,并随机初始化新增单词对应的向量;4、遍历新增训练数据,利用负采样方法及随机梯度下降算法,迭代更新词向量;5、达到预设的迭代次数后,输出更新后的词向量模型及词汇表;
步骤三:检索串预处理模块,检索串预处理主要用于解析用户输入检索串,过滤噪声字符;
步骤四:推荐词计算模块,基于双语检索词向量模型和双语概念词向量模型,首先,对现有词向量模型进行单位化处理,然后,根据预设的向量夹角余弦相似度计算公式,在两个模型中,分别计算检索词和可能的推荐词之间的相似度,最后,按预设的权重合并,排序输出相似性最高的前K个推荐词,K为预先指定的数目,本实施例中,K取20。具体如下:首先,模型预处理,单位化两模型词向量,预处理主要包括检查并单位化两模型的词向量,其次,计算检索词与模型词向量的相似度,采用基于余弦度量法及预设权重的方法,具体公式如下:余弦度量法(cosine measure),其中:表示向量的长度(模),加权相似度(weighted similarity),sim(x,y)=α·sim1(x,y)+(1-α)·sim2(x,y),其中,simi(x,y)为各模型对应的相似度,sim(x,y)为计算得到的最终相似度,α为预设的权重(默认0.5),最后,排序输出最相似的前K个推荐词,K为预先指定的数目,本实施例中取20;
步骤五:长尾检索词处理模块,长尾检索词处理主要包括检索词改写和同义词查找,检索词改写,基于编辑距离策略,同义词查找策略包括缩略语还原扩展、基于同义词典查找和拼音翻译,同义词查找,具体方法包括:缩略语还原,基于同义词典查找,拼音翻译。具体如下:第一,基于编辑距离算法,对检索词进行改写后,重新查找,首先基于预设的策略或算法,对检索词进行改写,本发明中采用基于编辑距离的方法,然后返回步骤四中的计算检索词与模型词向量的相似度,重新查找相应的相似性最高的检索词作为推荐结果;第二,基于缩略语还原、同义词典及拼音翻译方法,查找同义词,缩略语还原,通过查找缩略语词典,将还原后的全称作为推荐结果,本实施 例中,缩略语词典的词条数据格式为<英文缩略语,英文全称,中文释义>,如检索词为NER,缩略语词典中该缩略语对应的英文全称是“NameEntity Recognition”,中文释义为“命名实体识别”,则将“Name Entity Recognition”和“命名实体识别”作为推荐结果返回给用户,基于同义词典查找,通过查找预设的同义词典,或其他资源(如:WordNet),将得到的同义词作为推荐结果,拼音翻译,对检索词进行拼音识别,如果识别出检索词为拼音,通过拼音-汉字词典、隐马尔科夫模型等方法,将拼音翻译为汉字,作为推荐结果;
步骤六:推荐词后处理模块,推荐词的后处理旨在改善、提高用户体验,主要包括邻近词拼接、相似词过滤等。本实施例中,如推荐词和检索词的编辑距离<4,则将其作为相似词过滤。如推荐词长度<3,说明其信息量较小,则将其和检索词拼接重组后作为新推荐词。例如,检索词为“机器学习”,推荐词为“算法”,则将“机器学习算法”作为新推荐词返回给用户;
步骤七:结果输出模块,将推荐词反馈给用户。
本发明通过提出了一种有效的跨语言推荐建模方法,无需在线人工翻译,提高了用户的检索效率;通过提出了一种长尾检索词的相关检索词推荐方法,提高了推荐覆盖率,扩大了相关检索词的支持范围;通过提出了一种动态更新推荐模型的机制,使模型能及时反映检索系统用户关注的最新研究热点和研究趋势。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (2)

1.一种跨语言推荐方法和系统,其特征在于:包括双语检索词向量模型模块,基于用户检索会话日志,建立并更新检索词向量模型,挖掘用户检索会话中双语query的关联性;双语概念词向量模型模块,基于中英双语文献平行语料库,建立并更新概念词向量模型,挖掘相关的双语概念;检索串预处理模块,是对用户输入的检索串进行解析,并过滤其中夹杂的噪声字符;推荐词计算模块,基于双语检索词向量模型和双语概念词向量模型,查找相似性最高的检索词推荐给用户;长尾检索词处理模块,针对不常见的低频检索词,通过检索词改写和同义词查找方法,提高相关检索词的推荐覆盖率;推荐词后处理模块,通过邻近词拼接、相似词过滤等技术手段来提高、改善用户体验;结果输出模块,将经过后处理的推荐词呈现给用户。具体步骤如下:
步骤一:双语检索词向量模型模块,主要基于用户检索会话日志,用户的检索会话中,往往蕴含了双语query,例如,用户在用中文检索后,可能还会在同一会话中,再次检索相关的英文检索词,例如,用户在同一检索会话中,既检索了“机器学习”,又检索了“machinelearning”和“machine learnin galgorithms”,所以,通过对同一会话中的双语query序列建模,可以有效地将双语query间的关联性挖掘出来。模型的构建主要分三步:首先,从用户检索日志中,提取并预处理含有双语检索词的会话数据,然后,将双语检索词组织成待用的模型训练数据,最后,基于word embedding模型训练得到双语检索词向量。模型的更新主要分三步:首先,从新生成的用户检索日志中,提取并预处理含有双语检索词的会话数据,然后,将双语检索词组织成待用的模型训练数据,最后,加载原有双语检索词向量模型,采用动态增量更新方式对双语检索词向量进行更新。具体如下:
模型构建步骤:第一步,会话提取、预处理,首先,根据时间间隔切分检索会话,将时间间隔设为15分钟,其次,从会话数据中提取检索属性和行 为等必要的文本数据,包括用户检索词等,最后,过滤不合法query,如HTML字符,标点符号等,保留需要的含有双语检索词的会话数据;第二步,生成训练数据,根据采用的词向量模型需求,将预处理后会话中的双语检索词序列,组织成待用的文本训练数据集,每个会话对应训练数据集中的一个样本;第三步,训练双语检索词向量模型,根据预设的无监督word embedding模型及参数,在文本训练数据集上,训练双语检索词向量模型。模型更新步骤:第一步,更新会话数据,基于新生成或搜集得到的用户日志数据,提取并预处理会话数据;第二步,更新训练数据,根据新的会话数据,更新原有训练数据集;第三步,动态增量更新双语检索词向量模型,基于原模型词汇表及双语检索词向量,采用动态增量更新方式,更新双语检索词向量模型及词汇表;
步骤二:双语概念词向量模型模块,主要基于中英双语文献平行语料库,建立概念词向量模型,挖掘相关的双语概念,更新模型。模型的构建主要分两步:首先,从中英双语文献平行语料库中,提取平行语料数据,组织成待用的模型训练数据,然后,基于双语wordembedding模型训练得到双语概念词向量。具体如下:(1)构建双语训练数据,首先,从中英双语文献平行语料库中,提取平行语料数据,平行语料主要包括双语关键词,然后,按模型需求组织成待用的模型训练数据集,一篇文献的关键词序列构成了训练数据集中的一个样本;(2)训练双语概念词向量模型,根据预设的词向量模型及参数,在文本训练数据集上,训练双语概念词向量模型。模型的更新主要分两步:首先,更新中英双语文献平行语料数据,然后,加载原有双语概念词向量模型,采用动态增量更新方式对双语概念词词向量进行更新。具体如下:(1)更新双语训练数据,首先,获取新中英双语文献平行语料数据,然后,从中提取平行语料数据,最后,按模型需求,组织并更新待用的模型训练数据集;(2)动态增量更新双语概念词向量模型,基于原模型词汇表及双语概 念词向量,采用动态增量更新方式,更新双语概念词向量模型及词汇表;
步骤三:检索串预处理模块,检索串预处理主要用于解析用户输入检索串,过滤噪声字符;
步骤四:推荐词计算模块,基于双语检索词向量模型和双语概念词向量模型,首先,对现有词向量模型进行单位化处理;然后,根据预设的向量夹角余弦相似度计算公式,在两个模型中,分别计算检索词和可能的推荐词之间的相似度;最后,按预设的权重合并,排序输出相似性最高的前K个推荐词,K为预先指定的数目,本实施例中,K取20。具体如下:首先,模型预处理,单位化两模型词向量,预处理主要包括检查并单位化两模型的词向量,其次,计算检索词与模型词向量的相似度,采用基于余弦度量法及预设权重的方法,具体公式如下:余弦度量法(cosine measure),其中:表示向量的长度(模),加权相似度(weighted similarity),sim(x,y)=α·sim1(x,y)+(1-α)·sim2(x,y),其中,simi(x,y)为各模型对应的相似度,sim(x,y)为计算得到的最终相似度,α为预设的权重(默认0.5),最后,排序输出最相似的前K个推荐词,K为预先指定的数目,本发明中取20;
步骤五:长尾检索词处理模块,长尾检索词处理主要包括检索词改写和同义词查找,检索词改写,基于编辑距离策略,同义词查找策略包括缩略语还原扩展、基于同义词典查找和拼音翻译,同义词查找,具体方法包括:缩略语还原,基于同义词典查找,拼音翻译。,具体如下:,第一,基于编辑距离算法,对检索词进行改写后,重新查找,首先基于预设的策略或算法,对检索词进行改写,本发明中采用基于编辑距离的方法,然后返回步骤四中的计算检索词与模型词向量的相似度,重新查找相应的相似性最高的检索词作为推荐结果;第二,基于缩略语还原、同义词典及拼音翻译方法,查找同义 词,缩略语还原,通过查找缩略语词典,将还原后的全称作为推荐结果,本发明中,缩略语词典的词条数据格式为<英文缩略语,英文全称,中文释义>,如检索词为NER,缩略语词典中该缩略语对应的英文全称是“NameEntity Recognition”,中文释义为“命名实体识别”,则将“Name Entity Recognition”和“命名实体识别”作为推荐结果返回给用户,基于同义词典查找,通过查找预设的同义词典,或其他资源(如:WordNet),将得到的同义词作为推荐结果,拼音翻译,对检索词进行拼音识别,如果识别出检索词为拼音,通过拼音-汉字词典、隐马尔科夫模型等方法,将拼音翻译为汉字,作为推荐结果;
步骤六:推荐词后处理模块,推荐词的后处理旨在改善、提高用户体验,主要包括邻近词拼接和相似词过滤等。
步骤七:结果输出模块,将推荐词反馈给用户。
2.根据权利要求1所述的一种跨语言推荐方法和系统,其特征在于:在步骤一和步骤二中,采用的动态增量更新词向量模型的具体步骤如下:1、加载原模型词汇表;2、遍历新增训练数据,更新词汇表;3、加载原词向量模型,并随机初始化新增单词对应的向量;4、遍历新增训练数据,利用负采样方法及随机梯度下降算法,迭代更新词向量;5、达到预设的迭代次数后,输出更新后的词向量模型及词汇表。
CN201610363346.7A 2016-05-26 2016-05-26 一种跨语言推荐方法和系统 Pending CN106055623A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610363346.7A CN106055623A (zh) 2016-05-26 2016-05-26 一种跨语言推荐方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610363346.7A CN106055623A (zh) 2016-05-26 2016-05-26 一种跨语言推荐方法和系统

Publications (1)

Publication Number Publication Date
CN106055623A true CN106055623A (zh) 2016-10-26

Family

ID=57176039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610363346.7A Pending CN106055623A (zh) 2016-05-26 2016-05-26 一种跨语言推荐方法和系统

Country Status (1)

Country Link
CN (1) CN106055623A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777261A (zh) * 2016-12-28 2017-05-31 深圳市华傲数据技术有限公司 基于多源异构数据集的数据查询方法及装置
CN106802888A (zh) * 2017-01-12 2017-06-06 北京航空航天大学 词向量训练方法和装置
CN106897265A (zh) * 2017-01-12 2017-06-27 北京航空航天大学 词向量训练方法及装置
CN107844560A (zh) * 2017-10-30 2018-03-27 北京锐安科技有限公司 一种数据接入的方法、装置、计算机设备和可读存储介质
CN109325224A (zh) * 2018-08-06 2019-02-12 中国地质大学(武汉) 一种基于语义元语的词向量表征学习方法及系统
CN109408822A (zh) * 2018-10-30 2019-03-01 中译语通科技股份有限公司 一种跨语言图书相关度分析方法及系统
CN109801628A (zh) * 2019-02-11 2019-05-24 龙马智芯(珠海横琴)科技有限公司 一种语料收集方法、装置及系统
CN109858528A (zh) * 2019-01-10 2019-06-07 平安科技(深圳)有限公司 推荐系统训练方法、装置、计算机设备及存储介质
WO2019150222A1 (en) * 2018-02-01 2019-08-08 International Business Machines Corporation Dynamically constructing and configuring a conversational agent learning model
CN110717340A (zh) * 2019-09-29 2020-01-21 百度在线网络技术(北京)有限公司 推荐方法、装置、电子设备及存储介质
CN110852066A (zh) * 2018-07-25 2020-02-28 清华大学 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN111737007A (zh) * 2020-07-24 2020-10-02 北京一流科技有限公司 数据对象的分频处理系统及其方法
CN112988977A (zh) * 2021-04-25 2021-06-18 成都索贝数码科技股份有限公司 基于近似词的模糊匹配媒资内容库检索方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050228643A1 (en) * 2004-03-23 2005-10-13 Munteanu Dragos S Discovery of parallel text portions in comparable collections of corpora and training using comparable texts

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050228643A1 (en) * 2004-03-23 2005-10-13 Munteanu Dragos S Discovery of parallel text portions in comparable collections of corpora and training using comparable texts

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宋培彦: "跨语言术语同义关系推荐方法及其实证", 《知识组织与知识管理》 *
段建国: "基于双语翻译的个性化搜索引擎的研究与设计", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777261A (zh) * 2016-12-28 2017-05-31 深圳市华傲数据技术有限公司 基于多源异构数据集的数据查询方法及装置
CN106897265B (zh) * 2017-01-12 2020-07-10 北京航空航天大学 词向量训练方法及装置
CN106802888A (zh) * 2017-01-12 2017-06-06 北京航空航天大学 词向量训练方法和装置
CN106897265A (zh) * 2017-01-12 2017-06-27 北京航空航天大学 词向量训练方法及装置
CN107844560A (zh) * 2017-10-30 2018-03-27 北京锐安科技有限公司 一种数据接入的方法、装置、计算机设备和可读存储介质
CN107844560B (zh) * 2017-10-30 2020-09-08 北京锐安科技有限公司 一种数据接入的方法、装置、计算机设备和可读存储介质
US11886823B2 (en) 2018-02-01 2024-01-30 International Business Machines Corporation Dynamically constructing and configuring a conversational agent learning model
GB2584239B (en) * 2018-02-01 2022-03-02 Ibm Dynamically constructing and configuring a conversational agent learning model
WO2019150222A1 (en) * 2018-02-01 2019-08-08 International Business Machines Corporation Dynamically constructing and configuring a conversational agent learning model
GB2584239A (en) * 2018-02-01 2020-11-25 Ibm Dynamically constructing and configuring a conversational agent learning model
CN110852066A (zh) * 2018-07-25 2020-02-28 清华大学 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN109325224A (zh) * 2018-08-06 2019-02-12 中国地质大学(武汉) 一种基于语义元语的词向量表征学习方法及系统
CN109408822A (zh) * 2018-10-30 2019-03-01 中译语通科技股份有限公司 一种跨语言图书相关度分析方法及系统
CN109858528A (zh) * 2019-01-10 2019-06-07 平安科技(深圳)有限公司 推荐系统训练方法、装置、计算机设备及存储介质
CN109801628B (zh) * 2019-02-11 2020-02-21 龙马智芯(珠海横琴)科技有限公司 一种语料收集方法、装置及系统
CN109801628A (zh) * 2019-02-11 2019-05-24 龙马智芯(珠海横琴)科技有限公司 一种语料收集方法、装置及系统
CN110717340A (zh) * 2019-09-29 2020-01-21 百度在线网络技术(北京)有限公司 推荐方法、装置、电子设备及存储介质
CN110717340B (zh) * 2019-09-29 2023-11-21 百度在线网络技术(北京)有限公司 推荐方法、装置、电子设备及存储介质
CN111737007A (zh) * 2020-07-24 2020-10-02 北京一流科技有限公司 数据对象的分频处理系统及其方法
CN111737007B (zh) * 2020-07-24 2021-06-18 北京一流科技有限公司 数据对象的分频处理系统及其方法
CN112988977A (zh) * 2021-04-25 2021-06-18 成都索贝数码科技股份有限公司 基于近似词的模糊匹配媒资内容库检索方法

Similar Documents

Publication Publication Date Title
CN106055623A (zh) 一种跨语言推荐方法和系统
CN111159223B (zh) 一种基于结构化嵌入的交互式代码搜索方法及装置
US20160224543A1 (en) System and method for extracting ontological information from a body of text
CN109739973A (zh) 文本摘要生成方法、装置、电子设备及存储介质
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
Balaji et al. Morpho-semantic features for rule-based Tamil enconversion
Chen et al. Single document keyword extraction via quantifying higher-order structural features of word co-occurrence graph
Subramaniam et al. Test model for rich semantic graph representation for Hindi text using abstractive method
Toral et al. Linguistically-augmented perplexity-based data selection for language models
Hu et al. Self-supervised synonym extraction from the web.
Rakian et al. A Persian fuzzy plagiarism detection approach
CN101763403A (zh) 面向多语言信息检索系统的查询翻译方法
Singh et al. Statistical tagger for Bhojpuri (employing support vector machine)
Huang et al. Mining large-scale comparable corpora from Chinese-English news collections
Kessler et al. Extraction of terminology in the field of construction
Hämäläinen et al. The current state of Finnish NLP
Sinhal et al. A pure EBMT approach for English to Hindi sentence translation system
Korobkin et al. Prior art candidate search on base of statistical and semantic patent analysis
Zong et al. Research on alignment in the construction of parallel corpus
CN106202033B (zh) 一种基于依存约束和知识的副词词义消歧方法和装置
Sidhu et al. Role of machine translation and word sense disambiguation in natural language processing
Zheng et al. Architecture Descriptions Analysis Based on Text Mining and Crawling Technology
Borin et al. Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information
Ivanović et al. Corpus-based bilingual terminology extraction in the power engineering domain
Kardana et al. A novel approach for keyword extraction in learning objects using text mining and WordNet

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161026

WD01 Invention patent application deemed withdrawn after publication