CN113627201B - 信息抽取方法、装置、电子设备及存储介质 - Google Patents

信息抽取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113627201B
CN113627201B CN202111180788.5A CN202111180788A CN113627201B CN 113627201 B CN113627201 B CN 113627201B CN 202111180788 A CN202111180788 A CN 202111180788A CN 113627201 B CN113627201 B CN 113627201B
Authority
CN
China
Prior art keywords
semantic
unit
target
information
native
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111180788.5A
Other languages
English (en)
Other versions
CN113627201A (zh
Inventor
唐波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202111180788.5A priority Critical patent/CN113627201B/zh
Publication of CN113627201A publication Critical patent/CN113627201A/zh
Application granted granted Critical
Publication of CN113627201B publication Critical patent/CN113627201B/zh
Priority to PCT/CN2022/096657 priority patent/WO2023060910A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及一种信息抽取方法、装置、电子设备及存储介质,所述方法包括:对多个对象的原生评价信息进行语种转换,得到与每条原生评价信息对应的目标评价信息;对所述原生评价信息和所述目标评价信息进行语义单元拆分,得到多个原生语义单元和多个目标语义单元;构建语义单元匹配组;其中每个所述语义单元匹配组中包括一个目标语义单元,以及与所述目标语义单元具有相同语义的多个原生语义单元;所述多个原生语义单元对应不同的语种;基于对所述多个目标语义单元的语义聚类结果,以及所述语义单元匹配组,得到与所述多个对象对应的多语种属性描述信息。本公开能够提高多语言本地化表达的效果以及多语言表达的准确性。

Description

信息抽取方法、装置、电子设备及存储介质
技术领域
本公开涉及深度学习技术领域,尤其涉及一种信息抽取方法、装置、电子设备及存储介质。
背景技术
当前电商正从传统商业模式转向内容电商模式,内容电商是将有需求价值的内容,通过品牌主、电商平台及各种资源的整合传播,精准触达目标用户,提高转化率;评价作为内容电商系统中一块最大的UGC内容(User Generated Content,用户原创内容),评价内容组织的好坏将影响到用户的决策时间和和转化率。在评价内容的组织上,目前比较新颖的方式是大家印象词,该功能主要是对评价内容进行分类和总结。大家印象词可以是指评价文本中频繁出现的用于对目标对象进行描述的一个短句。
相关技术中,大家印象词主要是通过人工加算法辅助的方式生成,且在大家印象词的多语种表达上是借助机器翻译来完成的,经过机器翻译得到的多语种大家印象词的准确率受限于机器翻译的效果,并且大家印象词的语言本地化表达效果不佳。
发明内容
本公开提供一种信息抽取方法、装置、电子设备及存储介质,以至少解决相关技术中多语种大家印象词的准确率受限于机器翻译的效果,并且大家印象词的语言本地化表达效果不佳的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种信息抽取方法,包括:
对多个对象的原生评价信息进行语种转换,得到与每条原生评价信息对应的目标评价信息;其中,所述多个对象的原生评价信息中包括多语种的原生评价信息;
对所述原生评价信息和所述目标评价信息进行语义单元拆分,得到多个原生语义单元和多个目标语义单元;
构建语义单元匹配组;其中每个所述语义单元匹配组中包括一个目标语义单元,以及与所述目标语义单元具有相同语义的多个原生语义单元;所述多个原生语义单元对应不同的语种;
基于对所述多个目标语义单元的语义聚类结果,以及所述语义单元匹配组,得到与所述多个对象对应的多语种属性描述信息。
在一示例性实施例中,所述方法还包括:
生成与所述多个目标语义单元对应的语义向量;
对所述与所述多个目标语义单元对应的语义向量进行语义聚类,得到多个目标类;
基于每个所述目标类中的语义向量,以及所述语义单元匹配组,从所述多个目标语义单元中确定出多个聚类语义单元。
在一示例性实施例中,所述基于对所述多个目标语义单元的语义聚类结果,以及所述语义单元匹配组,得到与所述多个对象对应的多语种属性描述信息包括:
基于所述语义单元匹配组,确定与每项所述聚类语义单元相匹配的多个原生语义单元;
将每项所述聚类语义单元,以及与所述聚类语义单元相匹配的多个原生语义单元确定为与所述多个对象对应的多语种属性描述信息。
在一示例性实施例中,所述生成与所述多个目标语义单元对应的语义向量包括:
基于每个所述目标语义单元中每个词语的词向量,得到所述目标语义单元包含的词向量;
对所述目标语义单元包含的词向量取平均值,得到所述目标语义单元对应的所述语义向量;
基于各目标语义单元对应的所述语义向量,得到与所述多个目标语义单元对应的语义向量。
在一示例性实施例中,所述基于每个所述目标类中的语义向量,以及所述语义单元匹配组,从所述多个目标语义单元中确定出多个聚类语义单元包括:
确定每个所述目标类的中心语义向量;
基于每个所述目标类中的各语义向量与所述中心语义向量的距离,确定每个所述目标类的候选语义向量;
根据每个所述目标类的候选语义向量对应的目标语义单元,得到多个候选语义单元;
基于所述语义单元匹配组,确定与每个候选语义单元相匹配的原生语义单元的数量;
基于与每个候选语义单元相匹配的原生语义单元的数量,从所述候选语义单元中确定出所述聚类语义单元。
在一示例性实施例中,所述方法还包括:
在确定每个对象的属性描述信息时,遍历每个所述聚类语义单元,基于每个所述聚类语义单元执行以下操作:
在所述对象的原生评价信息中查找当前聚类语义单元;
若所述对象的原生评价信息中包含所述当前聚类语义单元时,将所述当前聚类语义单元确定为所述对象的属性描述信息。
在一示例性实施例中,所述方法还包括:
对于所述对象的每项属性描述信息,确定所述属性描述信息的情感值;
将所述对象的原生评价信息中,包含所述属性描述信息且与所述属性描述信息的情感值一致的原生评价信息确定为与所述属性描述信息相匹配的原生评价信息;
将与所述属性描述信息相匹配的原生评价信息挂载到所述属性描述信息中。
在一示例性实施例中,所述方法还包括:
对所述对象的各项属性描述信息中任意两项属性描述信息进行相似度计算;
基于相似度计算结果,确定相似属性信息对;每项所述相似属性信息对中包括相似度大于预设值的两项属性描述信息;
统计所述对象的各项属性描述信息所挂载的原生评价信息的数量;
基于所挂载的原生评价信息的数量由大到小的顺序,对各项属性描述信息进行排序;
将所述相似属性信息对中排序在后的属性描述信息对应的原生评价信息,挂载到所述相似属性信息对中排序在前的属性描述信息对应的原生评价信息中。
在一示例性实施例中,所述对所述原生评价信息和所述目标评价信息进行语义单元拆分,得到多个原生语义单元和多个目标语义单元包括:
对所述原生评价信息进行语义单元拆分,得到多个第一语义单元;
对所述多个第一语义单元进行去重,得到所述多个原生语义单元;
对所述目标评价信息进行语义单元拆分,得到多个第二语义单元;
对所述多个第二语义单元进行去重,得到所述多个目标语义单元。
根据本公开实施例的第二方面,提供一种信息抽取装置,包括:
语种转换单元,被配置为执行对多个对象的原生评价信息进行语种转换,得到与每条原生评价信息对应的目标评价信息;其中,所述多个对象的原生评价信息中包括多语种的原生评价信息;
语义单元拆分单元,被配置为执行对所述原生评价信息和所述目标评价信息进行语义单元拆分,得到多个原生语义单元和多个目标语义单元;
语义单元匹配组构建单元,被配置为执行构建语义单元匹配组;其中每个所述语义单元匹配组中包括一个目标语义单元,以及与所述目标语义单元具有相同语义的多个原生语义单元;所述多个原生语义单元对应不同的语种;
信息生成单元,被配置为执行基于对所述多个目标语义单元的语义聚类结果,以及所述语义单元匹配组,得到与所述多个对象对应的多语种属性描述信息。
在一示例性实施例中,所述装置还包括:
语义向量生成单元,被配置为执行生成与所述多个目标语义单元对应的语义向量;
语义聚类单元,被配置为执行对所述与所述多个目标语义单元对应的语义向量进行语义聚类,得到多个目标类;
第一确定单元,被配置为执行基于每个所述目标类中的语义向量,以及所述语义单元匹配组,从所述多个目标语义单元中确定出多个聚类语义单元。
在一示例性实施例中,所述信息生成单元包括:
第二确定单元,被配置为执行基于所述语义单元匹配组,确定与每项所述聚类语义单元相匹配的多个原生语义单元;
第三确定单元,被配置为执行将每项所述聚类语义单元,以及与所述聚类语义单元相匹配的多个原生语义单元确定为与所述多个对象对应的多语种属性描述信息。
在一示例性实施例中,所述语义向量生成单元包括:
第一词向量确定单元,被配置为执行基于每个所述目标语义单元中每个词语的词向量,得到所述目标语义单元包含的词向量;
平均值计算单元,被配置为执行对所述目标语义单元包含的词向量取平均值,得到所述目标语义单元对应的所述语义向量;
第二词向量确定单元,被配置为执行基于各目标语义单元对应的所述语义向量,得到与所述多个目标语义单元对应的语义向量。
在一示例性实施例中,所述第一确定单元包括:
中心语义向量确定单元,被配置为执行确定每个所述目标类的中心语义向量;
候选语义向量确定单元,被配置为执行基于每个所述目标类中的各语义向量与所述中心语义向量的距离,确定每个所述目标类的候选语义向量;
候选语义单元确定单元,被配置为执行根据每个所述目标类的候选语义向量对应的目标语义单元,得到多个候选语义单元;
第一数量确定单元,被配置为执行基于所述语义单元匹配组,确定与每个候选语义单元相匹配的原生语义单元的数量;
聚类语义单元确定单元,被配置为执行基于与每个候选语义单元相匹配的原生语义单元的数量,从所述候选语义单元中确定出所述聚类语义单元。
在一示例性实施例中,所述装置还包括:
遍历单元,被配置为执行在确定每个对象的属性描述信息时,遍历每个所述聚类语义单元,基于每个所述聚类语义单元执行以下操作:
查找单元,被配置为执行在所述对象的原生评价信息中查找当前聚类语义单元;
第四确定单元,被配置为执行若所述对象的原生评价信息中包含所述当前聚类语义单元时,将所述当前聚类语义单元确定为所述对象的属性描述信息。
在一示例性实施例中,所述装置还包括:
情感值确定单元,被配置为执行对于所述对象的每项属性描述信息,确定所述属性描述信息的情感值;
第五确定单元,被配置为执行将所述对象的原生评价信息中,包含所述属性描述信息且与所述属性描述信息的情感值一致的原生评价信息确定为与所述属性描述信息相匹配的原生评价信息;
第一挂载单元,被配置为执行将与所述属性描述信息相匹配的原生评价信息挂载到所述属性描述信息中。
在一示例性实施例中,所述装置还包括:
第二数量单元,被配置为执行统计所述对象的各项属性描述信息所挂载的原生评价信息的数量;
排序单元,被配置为执行基于所挂载的原生评价信息的数量由大到小的顺序,对各项属性描述信息进行排序;
相似度计算单元,被配置为执行对所述对象的各项属性描述信息进行相似度计算;
相似属性信息对确定单元,被配置为执行基于相似度计算结果,确定相似属性信息对;每项所述相似属性信息对中包括相似度大于预设值的两项属性描述信息;
第二挂载单元,被配置为执行将所述相似属性信息对中排序在后的属性描述信息对应的原生评价信息,挂载到所述相似属性信息对中排序在前的属性描述信息对应的原生评价信息中。
在一示例性实施例中,所述语义单元拆分单元包括:
第一拆分单元,被配置为执行对所述原生评价信息进行语义单元拆分,得到多个第一语义单元;
第一去重单元,被配置为执行对所述多个第一语义单元进行去重,得到所述多个原生语义单元;
第二拆分单元,被配置为执行对所述目标评价信息进行语义单元拆分,得到多个第二语义单元;
第二去重单元,被配置为执行对所述多个第二语义单元进行去重,得到所述多个目标语义单元。
根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如上所述的信息抽取方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如上所述的信息抽取方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,计算机设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序,使得设备执行上述的信息抽取方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开通过对多个对象的原生评价信息进行语种转换,得到相应的目标评价信息,通过将多语种的评价信息转换为统一的目标语种的评价信息,能够提高后续基于目标评价信息进行处理的便利性;再对多个对象的原生评价信息以及目标评价信息进行语义单元拆分,基于语义单元拆分结果构建语义单元匹配组,每个所述语义单元匹配组中包括一个目标语义单元,以及与所述目标语义单元具有相同语义的多个原生语义单元;所述多个原生语义单元对应不同的语种,从而具有相同语义的不同语种的语义单元具有匹配关系;然后基于对所述多个目标语义单元的语义聚类结果,以及所述语义单元匹配组,得到与所述多个对象对应的多语种属性描述信息。本公开中的多语种属性描述信息均是从原生评价信息中提取出来的,从而提高了多语言本地化表达的效果,并且能够避免基于机器翻译可能带来的翻译不准确的问题,从而提高了多语种属性描述信息表达的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种实施环境示意图。
图2是根据一示例性实施例示出的一种信息抽取方法流程图。
图3是根据一示例性实施例示出的一种语种转换示意图。
图4是根据一示例性实施例示出的一种语义单元拆分方法流程图。
图5是根据一示例性实施例示出的一种语义单元拆分示意图。
图6是根据一示例性实施例示出的一种多语种短句匹配过程示意图。
图7是根据一示例性实施例示出的一种多语种短句匹配表示意图。
图8是根据一示例性实施例示出的一种语义聚类方法流程图。
图9是根据一示例性实施例示出的与多个对象对应的多语种属性描述信息的确定方法流程图。
图10是根据一示例性实施例示出的一种语义向量生成方法流程图。
图11是根据一示例性实施例示出的一种聚类语义单元确定方法流程图。
图12是根据一示例性实施例示出的对每个对象确定相应属性描述信息的方法流程图。
图13是根据一示例性实施例示出的一种评价挂载方法流程图。
图14是根据一示例性实施例示出的一种属性描述信息归并方法流程图。
图15是根据一示例性实施例示出的一种信息抽取装置示意图。
图16是根据一示例性实施例示出的一种设备结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
首先对本公开实施例中涉及的相关名词做以下说明:
聚类:将文本按照语义合并为多个类的过程。
原生评价:用户真实输入的评价文本。
词向量(Word Embedding):又叫Word嵌入,是自然语言处理中语言模型和表征学习技术的统称。概念上而言,它是指把一个维数为所有词的高维空间嵌入到一个维数较低的连续向量空间中,每个单词或词组被映射为实数域上的向量。
请参阅图1,其示出了本公开实施例提供的实施环境示意图,该实施环境可包括:至少一个第一终端110和第二终端120,所述第一终端110和所述第二终端120可通过网络进行数据通信。
具体地,通过第一终端110可发布对相关对象平台中多个对象的评价信息;第二终端120可获取对多个对象的评价信息,对多个对象的评价信息进行文本分析以及信息提取,生成与每个对象对应的属性描述信息;从而当通过第一终端110浏览某个对象的评价信息时,可以展示与该对象对应的属性描述信息。
第一终端110可以基于浏览器/服务器模式(Browser/Server,B/S)或客户端/服务器模式(Client/Server,C/S)与第二终端120进行通信。所述第一终端110可以包括:智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端、服务器等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。本公开实施例中的第一终端110上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。
第二终端120与第一终端110可以通过有线或者无线建立通信连接,所述第二终端120可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群,其中服务器可以是云端服务器。
为了解决相关技术中多语种大家印象词的准确率受限于机器翻译的效果,并且大家印象词的语言本地化表达效果不佳的问题,本公开实施例提供了一种信息抽取方法,其执行主体可以为图1中的第二终端,具体可以为服务器,请参阅图2,该方法可包括:
S210. 对多个对象的原生评价信息进行语种转换,得到与每条原生评价信息对应的目标评价信息;其中,所述多个对象的原生评价信息中包括多语种的原生评价信息。
多个对象的原生评价信息中包括多语种的原生评价信息可以是指,不同对象的原生评价信息可以包含相同语种的原生评价信息,也可以包含不同语种的原生评价信息,即不同对象对应的原生评价的语种数量可能不同。
例如,对象1的原生评价信息可包含语种1、语种2的原生评价信息,对象2的原生评价信息可包含语种2、语种3的原生评价信息,从而对象1和对象2具有相同语种2的原生评价信息,具有不同语种1、语种3的原生评价信息。其中,具有相同语种的原生评价信息只是语种相同,但相应的评价内容不一定相同。
在对原生评价信息进行语种转换之前还可对原生评价信息进行预处理,具体可包括:首先对原生评价信息进行语种识别,得到原生评价的真实语种,接着进行特殊字符处理,去掉文本中无意义的字符,最后再进行单词拼写检查,纠正错误单词,得到较为规范的文本数据,为后续算法的实施做准备工作。
具体地,当目标语种为英语时,请参阅图3,其示出了一种语种转换示意图,从图3可以看出,将语种为俄语的原生评价信息1翻译成了对应的英文评价信息1;同样地,对于语种为西语的原生评价信息2,可翻译成对应的英文评价信息2。
S220. 对所述原生评价信息和所述目标评价信息进行语义单元拆分,得到多个原生语义单元和多个目标语义单元。
请参阅图4,其示出了一种语义单元拆分方法,该方法可包括:
S410. 对所述原生评价信息进行语义单元拆分,得到多个第一语义单元。
S420. 对所述多个第一语义单元进行去重,得到所述多个原生语义单元。
S430. 对所述目标评价信息进行语义单元拆分,得到多个第二语义单元。
S440. 对所述多个第二语义单元进行去重,得到所述多个目标语义单元。
本公开实施例中,一个语义单元具体可以为一个短句。在原生评价信息中,用户容易将多个评价目标合并在一个评价子句中,从而使得相应的目标评价信息也会出现并列句的情况,造成文本聚类效果下降;例如,在电商场景下,对象可以为服饰,对于服饰的评价目标可以为材质的质量、做工以及物流评价等;为了解决该问题,本公开通过连词识别出评价信息中并列的评价目标,然后通过语法规则将评价信息拆分成多个完整的子句。另外,由于是对多项原生评价信息以及多项目标评价信息进行语义拆分,可能会存在经过拆分之后得到的语义单元重复的情况,此时可以对语义单元进行去重操作,能够避免语义单元的冗余,提高数据处理效率。
请参阅图5,其示出了一种语义单元拆分示意图,从图5可以看出,对于原英文评价信息“High quality sewing and material”,被拆分为“High quality sewing”和“Highquality material”,这里的评价目标即为“sewing”和“material”。
S230. 构建语义单元匹配组;其中每个所述语义单元匹配组中包括一个目标语义单元,以及与所述目标语义单元具有相同语义的多个原生语义单元;所述多个原生语义单元对应不同的语种。
本公开具体可采用Champollion算法进行文本对齐,得到每个对象的原生语义单元和目标语义单元的匹配对,其中每个语义单元匹配组中包含具有相同语义的多个不同语种的语义单元。
请参阅图6,其示出了一种多语种短句匹配过程示意图,其中,基于相同的语义,将原生语义单元和相应的目标语义单元对应起来,形成相应的语义单元匹配关系;每个匹配对(pair对)中包括一个原生语义单元和一个目标语义单元。
请参阅图7,其示出了一种多语种短句匹配表示意图,对于图6中的多个匹配对,可能存在语义相同的匹配对,可基于语义相同的匹配对生成语义单元匹配组;例如图6中的pair(Rc_k,Tm_n),以及pair(Se_f,Tc_j),其中Tm_n= Tc_j,即目标语义单元相同,那么相应的Rc_k和Se_f也具有相同的语义,Rc_k和Se_f对应不同语种,从而可构建(Tm_n,Rc_k,Se_f)这一语义单元匹配组。基于多个语义单元匹配组可形成语义单元匹配表,该语义单元匹配表可为后续的多语种表达提供索引。
由于不同对象之间的原生评价信息之间内容不同,例如有些对象的原生评价较少,或者只有一种语种的原生评价信息,无法通过自身的原生评价信息构建多语种的语义单元匹配关系,为了解决该问题,可基于各对象的匹配对进行匹配,通过对象之间评价信息的互补,构建多语种语义单元匹配关系。
S240. 基于对所述多个目标语义单元的语义聚类结果,以及所述语义单元匹配组,得到与所述多个对象对应的多语种属性描述信息。
请参阅图8,其示出了一种语义聚类方法,该方法可包括:
S810. 生成与所述多个目标语义单元对应的语义向量。
S820. 对所述与所述多个目标语义单元对应的语义向量进行语义聚类,得到多个目标类。
S830. 基于每个所述目标类中的语义向量,以及所述语义单元匹配组,从所述多个目标语义单元中确定出多个聚类语义单元。
本公开中可采用K-means聚类算法得到每个句子所属的类别。K-means聚类算法是一种常见的无监督高效的聚类算法,利用该算法,便可以将相同语义的语义单元聚到同一个类中,其中K-means算法中的K是通过轮廓系数来确定的。
本公开中对目标语义单元的聚类可基于相应的语义向量来实现,由于语义向量能够充分体现相应语义单元的特征信息且计算方便,从而提高了语义单元聚类的准确性和便利性。
请参阅图9,其示出了与多个对象对应的多语种属性描述信息的确定方法,包括:
S910. 基于所述语义单元匹配组,确定与每项所述聚类语义单元相匹配的多个原生语义单元。
S920. 将每项所述聚类语义单元,以及与所述聚类语义单元相匹配的多个原生语义单元确定为与所述多个对象对应的多语种属性描述信息。
这里的属性描述信息可用于表征对多个对象特征的提炼和概括信息,其能够体现对象的特征信息,通过属性描述信息即可大概了解相应的对象。这里得到的多语种属性描述信息可以是指多个对象的综合属性描述信息,具体可以是多项属性描述信息,每项属性描述信息包括多个语种且具有相同语义的属性描述信息。
请参阅图10,其示出了一种语义向量生成方法,该方法可包括:
S1010. 基于每个所述目标语义单元中每个词语的词向量,得到所述目标语义单元包含的词向量。
S1020. 对所述目标语义单元包含的词向量取平均值,得到所述目标语义单元对应的所述语义向量。
S1030. 基于各目标语义单元对应的所述语义向量,得到与所述多个目标语义单元对应的语义向量。
本公开在确定目标语义单元的语义向量之前,还需要计算其中每个词语的词向量;具体是通过分词得到每一个目标语义单元所涉及的若干词语,并且进行分词和词性标注,按照类目将语义单元放入到Word2Vec模型中,训练出每一个单词的词向量,同时将分词的词语在词向量表中进行索引;对于每个目标语义单元,将其中包含的词语在词向量表中进行检索,得到每个目标语义单元所包含的向量组合,最后通过对向量组合中所有词语词向量取均值,得到该目标语义单元的语义向量表达。基于预先生成的词向量来计算目标语义单元的语义向量,能够提高语义向量计算的准确性和便利性。
其中,对于词向量的生成方法还可采用动态语义向量模型实现,本公开实施例不做具体限定。
请参阅图11,其示出了一种聚类语义单元确定方法,该方法可包括:
S1110. 确定每个所述目标类的中心语义向量。
S1120. 基于每个所述目标类中的各语义向量与所述中心语义向量的距离,确定每个所述目标类的候选语义向量。
S1130. 根据每个所述目标类的候选语义向量对应的目标语义单元,得到多个候选语义单元。
S1140. 基于所述语义单元匹配组,确定与每个候选语义单元相匹配的原生语义单元的数量。
S1150.基于与每个候选语义单元相匹配的原生语义单元的数量,从所述候选语义单元中确定出所述聚类语义单元。
在每个目标类中,首先可确定相应的中心语义向量,然后计算该目标类中其他语义向量与该中心语义向量的距离,并基于与中心语义向量的距离由近及远对语义向量进行排序,例如具体可选择排序靠前10%的语义向量作为与该目标类对应的候选语义向量。
在得到候选语义向量之后,可得到相应的候选语义单元,基于上述的语义单元匹配组,可确定每个候选语义单元相匹配的原生语义单元的数量;本公开中具体可选择匹配原生语义单元数量较多的候选语义单元作为聚类语义单元,因为匹配的原生语义单元数量越多,相应的多语种表达的语种类型就越多,从而可实现更多语种的语义单元表达,提高语义单元表达形式的多样性和丰富性。
请参阅图12,其示出了对每个对象确定相应属性描述信息的方法,该方法可包括:
S1210. 在确定每个对象的属性描述信息时,遍历每个所述聚类语义单元。
S1220. 在所述对象的原生评价信息中查找当前聚类语义单元。
S1230. 若所述对象的原生评价信息中包含所述当前聚类语义单元时,将所述当前聚类语义单元确定为所述对象的属性描述信息。
由于上述的聚类语义单元的确定是基于多对象的原生评价信息生成的,从而相应的聚类语义单元是针对多个对象而言的,并不是每个对象均对应上述的多个聚类语义单元,此时需要分别为每个对象进行个性化处理。具体是将每个聚类语义单元与每个对象的原生评价信息进行匹配,从而确定每个对象的属性描述信息,进一步提高了对象属性信息的个性化展示。之所以需要先基于多个对象的原生评价信息生成聚类语义单元,是为了实现对象之间多语种信息表达的互补。
请参阅图13,其示出了一种评价挂载方法,该方法可包括:
S1310. 对于所述对象的每项属性描述信息,确定所述属性描述信息的情感值。
S1320. 将所述对象的原生评价信息中,包含所述属性描述信息且与所述属性描述信息的情感值一致的原生评价信息确定为与所述属性描述信息相匹配的原生评价信息。
S1330. 将与所述属性描述信息相匹配的原生评价信息挂载到所述属性描述信息中。
情感值可包括正向、负向,以及中性,在进行评价信息挂载时,基于情感值一致这一前提能够提高挂载的准确性;通过属性描述信息能够使得用户快速对当前对象有一个大致了解,为了能够进一步获取详细的评价信息,可将每项属性描述信息与相应的评价信息进行挂载,实现了对评价信息的分类,能够进行评价信息的分类获取;基于属性描述信息便可获取与该属性描述信息相关的评价信息,提高了评价信息获取的便利性。
进一步地,对象可包括多项属性描述信息,对于每项属性描述信息均可确定出与该项属性描述信息相匹配的原生评价信息;具体地,确定每项属性描述信息的情感值,基于该项属性描述信息的情感值从对象的原生评价信息确定出与该项属性描述信息相匹配的原生评价信息。
请参阅图14,其示出了一种属性描述信息归并方法,该方法可包括:
S1410. 对所述对象的各项属性描述信息中任意两项属性描述信息进行相似度计算。
S1420. 判断所述对象的各项属性描述信息中是否存在相似的属性描述信息;若是,执行步骤S1430;若否,执行步骤S1470。
S1430. 基于相似度计算结果,确定相似属性信息对;每项所述相似属性信息对中包括相似度大于预设值的两项属性描述信息。
S1440. 统计所述对象的各项属性描述信息所挂载的原生评价信息的数量。
S1450. 基于所挂载的原生评价信息的数量由大到小的顺序,对各项属性描述信息进行排序。
S1460. 将所述相似属性信息对中排序在后的属性描述信息对应的原生评价信息,挂载到所述相似属性信息对中排序在前的属性描述信息对应的原生评价信息中。
S1470. 确定当前属性描述信息为所述对象的属性描述信息。
对于每个对象,通过上述方法得到的属性描述信息中可能包含语义粗细粒度不一致的属性描述信息;例如在电商场景中,相应的属性描述信息可能包括“物流快”、“发货快”、“运输快”等,此时可对这些语义粗细粒度不一致的属性描述信息进行归并,解决了无监督聚类里属性描述信息语义粒度不一致的问题,让属性描述信息语义层级更加一致。
本公开实施例中对属性描述信息进行归并的方法可包括:
1. ESIM模型训练;首先通过开源的数据集和规则捞取的方式得到相似属性信息对,构建出训练数据集,然后进行ESIM模型的训练。ESIM全称Enhanced SequentialInference Model,是一种增强序列推断模型,所以本实施例中采用了ESIM模型来做属性描述信息的相似性判断。
2. 属性描述信息相似性判断;将所挂载的原生评价信息的数量由大到小的顺序,对各项属性描述信息进行排序,利用1中的模型判别排序靠前的属性描述信息和排序靠后的属性描述信息的相似关系。
3. 相似属性描述信息合并;如果2中判断了排序靠前的属性描述信息和排序靠后的属性描述信息是相似的,那么将排序靠后的属性描述信息替换成排序靠前的属性描述信息,并且将排序靠后的属性描述信息对应评价信息挂载到排序靠前的属性描述信息中。
重复步骤2和步骤3,直到对象的属性描述信息互不相似为止。
本公开实施例中,在用户终端进行属性描述信息展示时,相应的显示语种可以是基于用户自定义确定的,也可以是基于用户终端的定位信息确定的,本实施例不做具体限定。
本公开基于对象维度进行属性描述信息的挖掘,通过对象之间评价信息的差异性提升属性描述信息的个性化程度;在聚类的结果上采用ESIM算法对相似属性描述信息进行合并,解决了无监督聚类里属性描述信息语义粒度不一致的问题,让属性描述信息语义层级更加一致;通过对象之间评价信息内容的互补,构建出原生评价信息与目标评价信息之间的匹配关系,让属性描述信息在多语种的展示上更加本地化。
本公开通过对多个对象的原生评价信息进行语种转换,得到相应的目标评价信息,通过将多语种的评价信息转换为统一的目标语种的评价信息,能够提高后续基于目标评价信息进行处理的便利性;再对多个对象的原生评价信息以及目标评价信息进行语义单元拆分,基于语义单元拆分结果构建语义单元匹配组,每个所述语义单元匹配组中包括一个目标语义单元,以及与所述目标语义单元具有相同语义的多个原生语义单元;所述多个原生语义单元对应不同的语种,从而具有相同语义的不同语种的语义单元具有匹配关系;然后基于对所述多个目标语义单元的语义聚类结果,以及所述语义单元匹配组,得到与所述多个对象对应的多语种属性描述信息。本公开中的多语种属性描述信息均是从原生评价信息中提取出来的,从而提高了多语言本地化表达的效果,并且能够避免基于机器翻译可能带来的翻译不准确的问题,从而提高了多语种属性描述信息表达的准确性。
图15是根据一示例性实施例示出的一种信息抽取装置框图。参照图15,该装置包括:
语种转换单元1510,被配置为执行对多个对象的原生评价信息进行语种转换,得到与每条原生评价信息对应的目标评价信息;其中,所述多个对象的原生评价信息中包括多语种的原生评价信息;
语义单元拆分单元1520,被配置为执行对所述原生评价信息和所述目标评价信息进行语义单元拆分,得到多个原生语义单元和多个目标语义单元;
语义单元匹配组构建单元1530,被配置为执行构建语义单元匹配组;其中每个所述语义单元匹配组中包括一个目标语义单元,以及与所述目标语义单元具有相同语义的多个原生语义单元;所述多个原生语义单元对应不同的语种;
信息生成单元1540,被配置为执行基于对所述多个目标语义单元的语义聚类结果,以及所述语义单元匹配组,得到与所述多个对象对应的多语种属性描述信息。
在一示例性实施例中,所述装置还包括:
语义向量生成单元,被配置为执行生成与所述多个目标语义单元对应的语义向量;
语义聚类单元,被配置为执行对所述与所述多个目标语义单元对应的语义向量进行语义聚类,得到多个目标类;
第一确定单元,被配置为执行基于每个所述目标类中的语义向量,以及所述语义单元匹配组,从所述多个目标语义单元中确定出多个聚类语义单元。
在一示例性实施例中,所述信息生成单元1540包括:
第二确定单元,被配置为执行基于所述语义单元匹配组,确定与每项所述聚类语义单元相匹配的多个原生语义单元;
第三确定单元,被配置为执行将每项所述聚类语义单元,以及与所述聚类语义单元相匹配的多个原生语义单元确定为与所述多个对象对应的多语种属性描述信息。
在一示例性实施例中,所述语义向量生成单元包括:
第一词向量确定单元,被配置为执行基于每个所述目标语义单元中每个词语的词向量,得到所述目标语义单元包含的词向量;
平均值计算单元,被配置为执行对所述目标语义单元包含的词向量取平均值,得到所述目标语义单元对应的所述语义向量;
第二词向量确定单元,被配置为执行基于各目标语义单元对应的所述语义向量,得到与所述多个目标语义单元对应的语义向量。
在一示例性实施例中,所述第一确定单元包括:
中心语义向量确定单元,被配置为执行确定每个所述目标类的中心语义向量;
候选语义向量确定单元,被配置为执行基于每个所述目标类中的各语义向量与所述中心语义向量的距离,确定每个所述目标类的候选语义向量;
候选语义单元确定单元,被配置为执行根据每个所述目标类的候选语义向量对应的目标语义单元,得到多个候选语义单元;
第一数量确定单元,被配置为执行基于所述语义单元匹配组,确定与每个候选语义单元相匹配的原生语义单元的数量;
聚类语义单元确定单元,被配置为执行基于与每个候选语义单元相匹配的原生语义单元的数量,从所述候选语义单元中确定出所述聚类语义单元。
在一示例性实施例中,所述装置还包括:
遍历单元,被配置为执行在确定每个对象的属性描述信息时,遍历每个所述聚类语义单元,基于每个所述聚类语义单元执行以下操作:
查找单元,被配置为执行在所述对象的原生评价信息中查找当前聚类语义单元;
第四确定单元,被配置为执行若所述对象的原生评价信息中包含所述当前聚类语义单元时,将所述当前聚类语义单元确定为所述对象的属性描述信息。
在一示例性实施例中,所述装置还包括:
情感值确定单元,被配置为执行对于所述对象的每项属性描述信息,确定所述属性描述信息的情感值;
第五确定单元,被配置为执行将所述对象的原生评价信息中,包含所述属性描述信息且与所述属性描述信息的情感值一致的原生评价信息确定为与所述属性描述信息相匹配的原生评价信息;
第一挂载单元,被配置为执行将与所述属性描述信息相匹配的原生评价信息挂载到所述属性描述信息中。
在一示例性实施例中,所述装置还包括:
第二数量单元,被配置为执行统计所述对象的各项属性描述信息所挂载的原生评价信息的数量;
排序单元,被配置为执行基于所挂载的原生评价信息的数量由大到小的顺序,对各项属性描述信息进行排序;
相似度计算单元,被配置为执行对所述对象的各项属性描述信息进行相似度计算;
相似属性信息对确定单元,被配置为执行基于相似度计算结果,确定相似属性信息对;每项所述相似属性信息对中包括相似度大于预设值的两项属性描述信息;
第二挂载单元,被配置为执行将所述相似属性信息对中排序在后的属性描述信息对应的原生评价信息,挂载到所述相似属性信息对中排序在前的属性描述信息对应的原生评价信息中。
在一示例性实施例中,所述语义单元拆分单元包括:
第一拆分单元,被配置为执行对所述原生评价信息进行语义单元拆分,得到多个第一语义单元;
第一去重单元,被配置为执行对所述多个第一语义单元进行去重,得到所述多个原生语义单元;
第二拆分单元,被配置为执行对所述目标评价信息进行语义单元拆分,得到多个第二语义单元;
第二去重单元,被配置为执行对所述多个第二语义单元进行去重,得到所述多个目标语义单元。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等;当所述计算机可读存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如上所述的任一方法。
在示例性实施例中,还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,计算机设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序,使得设备执行上述任一方法。
进一步地,图16示出了一种用于实现本公开实施例所提供的方法的设备的硬件结构示意图,所述设备可以参与构成或包含本公开实施例所提供的装置。如图16所示,设备10可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图16所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,设备10还可包括比图16中所示更多或者更少的组件,或者具有与图16所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本公开实施例中所述的方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种播放器预加载方法或一种播放器运行方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。
本实施例上述的任一方法均可基于图16所示的设备进行实施。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (20)

1.一种信息抽取方法,其特征在于,包括:
对多个对象的原生评价信息进行语种转换,得到与每条原生评价信息对应的目标评价信息;其中,所述多个对象的原生评价信息中包括多语种的原生评价信息;
对所述原生评价信息和所述目标评价信息进行语义单元拆分,得到多个原生语义单元和多个目标语义单元;
构建语义单元匹配组;其中每个所述语义单元匹配组中包括一个目标语义单元,以及与所述目标语义单元具有相同语义的多个原生语义单元;所述多个原生语义单元对应不同的语种;
基于对所述多个目标语义单元的语义聚类结果,以及所述语义单元匹配组,得到与所述多个对象对应的多语种属性描述信息;每个对象对应的多语种属性描述信息包括多个语种且具有相同语义的属性描述信息。
2.根据权利要求1所述的一种信息抽取方法,其特征在于,所述方法还包括:
生成与所述多个目标语义单元对应的语义向量;
对所述与所述多个目标语义单元对应的语义向量进行语义聚类,得到多个目标类;
基于每个所述目标类中的语义向量,以及所述语义单元匹配组,从所述多个目标语义单元中确定出多个聚类语义单元。
3.根据权利要求2所述的一种信息抽取方法,其特征在于,所述基于对所述多个目标语义单元的语义聚类结果,以及所述语义单元匹配组,得到与所述多个对象对应的多语种属性描述信息包括:
基于所述语义单元匹配组,确定与每项所述聚类语义单元相匹配的多个原生语义单元;
将每项所述聚类语义单元,以及与所述聚类语义单元相匹配的多个原生语义单元确定为与所述多个对象对应的多语种属性描述信息。
4.根据权利要求2所述的一种信息抽取方法,其特征在于,所述生成与所述多个目标语义单元对应的语义向量包括:
基于每个所述目标语义单元中每个词语的词向量,得到所述目标语义单元包含的词向量;
对所述目标语义单元包含的词向量取平均值,得到所述目标语义单元对应的所述语义向量;
基于各目标语义单元对应的所述语义向量,得到与所述多个目标语义单元对应的语义向量。
5.根据权利要求2所述的一种信息抽取方法,其特征在于,所述基于每个所述目标类中的语义向量,以及所述语义单元匹配组,从所述多个目标语义单元中确定出多个聚类语义单元包括:
确定每个所述目标类的中心语义向量;
基于每个所述目标类中的各语义向量与所述中心语义向量的距离,确定每个所述目标类的候选语义向量;
根据每个所述目标类的候选语义向量对应的目标语义单元,得到多个候选语义单元;
基于所述语义单元匹配组,确定与每个候选语义单元相匹配的原生语义单元的数量;
基于与每个候选语义单元相匹配的原生语义单元的数量,从所述候选语义单元中确定出所述聚类语义单元。
6.根据权利要求2所述的一种信息抽取方法,其特征在于,所述方法还包括:
在确定每个对象的属性描述信息时,遍历每个所述聚类语义单元,基于每个所述聚类语义单元执行以下操作:
在所述对象的原生评价信息中查找当前聚类语义单元;
若所述对象的原生评价信息中包含所述当前聚类语义单元时,将所述当前聚类语义单元确定为所述对象的属性描述信息。
7.根据权利要求6所述的一种信息抽取方法,其特征在于,所述方法还包括:
对于所述对象的每项属性描述信息,确定所述属性描述信息的情感值;
将所述对象的原生评价信息中,包含所述属性描述信息且与所述属性描述信息的情感值一致的原生评价信息确定为与所述属性描述信息相匹配的原生评价信息;
将与所述属性描述信息相匹配的原生评价信息挂载到所述属性描述信息中。
8.根据权利要求7所述的一种信息抽取方法,其特征在于,所述方法还包括:
对所述对象的各项属性描述信息中任意两项属性描述信息进行相似度计算;
基于相似度计算结果,确定相似属性信息对;每项所述相似属性信息对中包括相似度大于预设值的两项属性描述信息;
统计所述对象的各项属性描述信息所挂载的原生评价信息的数量;
基于所挂载的原生评价信息的数量由大到小的顺序,对各项属性描述信息进行排序;
将所述相似属性信息对中排序在后的属性描述信息对应的原生评价信息,挂载到所述相似属性信息对中排序在前的属性描述信息对应的原生评价信息中。
9.根据权利要求1所述的一种信息抽取方法,其特征在于,所述对所述原生评价信息和所述目标评价信息进行语义单元拆分,得到多个原生语义单元和多个目标语义单元包括:
对所述原生评价信息进行语义单元拆分,得到多个第一语义单元;
对所述多个第一语义单元进行去重,得到所述多个原生语义单元;
对所述目标评价信息进行语义单元拆分,得到多个第二语义单元;
对所述多个第二语义单元进行去重,得到所述多个目标语义单元。
10.一种信息抽取装置,其特征在于,包括:
语种转换单元,被配置为执行对多个对象的原生评价信息进行语种转换,得到与每条原生评价信息对应的目标评价信息;其中,所述多个对象的原生评价信息中包括多语种的原生评价信息;
语义单元拆分单元,被配置为执行对所述原生评价信息和所述目标评价信息进行语义单元拆分,得到多个原生语义单元和多个目标语义单元;
语义单元匹配组构建单元,被配置为执行构建语义单元匹配组;其中每个所述语义单元匹配组中包括一个目标语义单元,以及与所述目标语义单元具有相同语义的多个原生语义单元;所述多个原生语义单元对应不同的语种;
信息生成单元,被配置为执行基于对所述多个目标语义单元的语义聚类结果,以及所述语义单元匹配组,得到与所述多个对象对应的多语种属性描述信息;每个对象对应的多语种属性描述信息包括多个语种且具有相同语义的属性描述信息。
11.根据权利要求10所述的一种信息抽取装置,其特征在于,所述装置还包括:
语义向量生成单元,被配置为执行生成与所述多个目标语义单元对应的语义向量;
语义聚类单元,被配置为执行对所述与所述多个目标语义单元对应的语义向量进行语义聚类,得到多个目标类;
第一确定单元,被配置为执行基于每个所述目标类中的语义向量,以及所述语义单元匹配组,从所述多个目标语义单元中确定出多个聚类语义单元。
12.根据权利要求11所述的一种信息抽取装置,其特征在于,所述信息生成单元包括:
第二确定单元,被配置为执行基于所述语义单元匹配组,确定与每项所述聚类语义单元相匹配的多个原生语义单元;
第三确定单元,被配置为执行将每项所述聚类语义单元,以及与所述聚类语义单元相匹配的多个原生语义单元确定为与所述多个对象对应的多语种属性描述信息。
13.根据权利要求11所述的一种信息抽取装置,其特征在于,所述语义向量生成单元包括:
第一词向量确定单元,被配置为执行基于每个所述目标语义单元中每个词语的词向量,得到所述目标语义单元包含的词向量;
平均值计算单元,被配置为执行对所述目标语义单元包含的词向量取平均值,得到所述目标语义单元对应的所述语义向量;
第二词向量确定单元,被配置为执行基于各目标语义单元对应的所述语义向量,得到与所述多个目标语义单元对应的语义向量。
14.根据权利要求11所述的一种信息抽取装置,其特征在于,所述第一确定单元包括:
中心语义向量确定单元,被配置为执行确定每个所述目标类的中心语义向量;
候选语义向量确定单元,被配置为执行基于每个所述目标类中的各语义向量与所述中心语义向量的距离,确定每个所述目标类的候选语义向量;
候选语义单元确定单元,被配置为执行根据每个所述目标类的候选语义向量对应的目标语义单元,得到多个候选语义单元;
第一数量确定单元,被配置为执行基于所述语义单元匹配组,确定与每个候选语义单元相匹配的原生语义单元的数量;
聚类语义单元确定单元,被配置为执行基于与每个候选语义单元相匹配的原生语义单元的数量,从所述候选语义单元中确定出所述聚类语义单元。
15.根据权利要求11所述的一种信息抽取装置,其特征在于,所述装置还包括:
遍历单元,被配置为执行在确定每个对象的属性描述信息时,遍历每个所述聚类语义单元,基于每个所述聚类语义单元执行以下操作:
查找单元,被配置为执行在所述对象的原生评价信息中查找当前聚类语义单元;
第四确定单元,被配置为执行若所述对象的原生评价信息中包含所述当前聚类语义单元时,将所述当前聚类语义单元确定为所述对象的属性描述信息。
16.根据权利要求15所述的一种信息抽取装置,其特征在于,所述装置还包括:
情感值确定单元,被配置为执行对于所述对象的每项属性描述信息,确定所述属性描述信息的情感值;
第五确定单元,被配置为执行将所述对象的原生评价信息中,包含所述属性描述信息且与所述属性描述信息的情感值一致的原生评价信息确定为与所述属性描述信息相匹配的原生评价信息;
第一挂载单元,被配置为执行将与所述属性描述信息相匹配的原生评价信息挂载到所述属性描述信息中。
17.根据权利要求16所述的一种信息抽取装置,其特征在于,所述装置还包括:
第二数量单元,被配置为执行统计所述对象的各项属性描述信息所挂载的原生评价信息的数量;
排序单元,被配置为执行基于所挂载的原生评价信息的数量由大到小的顺序,对各项属性描述信息进行排序;
相似度计算单元,被配置为执行对所述对象的各项属性描述信息进行相似度计算;
相似属性信息对确定单元,被配置为执行基于相似度计算结果,确定相似属性信息对;每项所述相似属性信息对中包括相似度大于预设值的两项属性描述信息;
第二挂载单元,被配置为执行将所述相似属性信息对中排序在后的属性描述信息对应的原生评价信息,挂载到所述相似属性信息对中排序在前的属性描述信息对应的原生评价信息中。
18.根据权利要求10所述的一种信息抽取装置,其特征在于,所述语义单元拆分单元包括:
第一拆分单元,被配置为执行对所述原生评价信息进行语义单元拆分,得到多个第一语义单元;
第一去重单元,被配置为执行对所述多个第一语义单元进行去重,得到所述多个原生语义单元;
第二拆分单元,被配置为执行对所述目标评价信息进行语义单元拆分,得到多个第二语义单元;
第二去重单元,被配置为执行对所述多个第二语义单元进行去重,得到所述多个目标语义单元。
19.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至9中任一项所述的信息抽取方法。
20.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至9中任一项所述的信息抽取方法。
CN202111180788.5A 2021-10-11 2021-10-11 信息抽取方法、装置、电子设备及存储介质 Active CN113627201B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111180788.5A CN113627201B (zh) 2021-10-11 2021-10-11 信息抽取方法、装置、电子设备及存储介质
PCT/CN2022/096657 WO2023060910A1 (zh) 2021-10-11 2022-06-01 信息抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111180788.5A CN113627201B (zh) 2021-10-11 2021-10-11 信息抽取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113627201A CN113627201A (zh) 2021-11-09
CN113627201B true CN113627201B (zh) 2022-02-08

Family

ID=78390892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111180788.5A Active CN113627201B (zh) 2021-10-11 2021-10-11 信息抽取方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN113627201B (zh)
WO (1) WO2023060910A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627201B (zh) * 2021-10-11 2022-02-08 北京达佳互联信息技术有限公司 信息抽取方法、装置、电子设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042692B (zh) * 2006-03-24 2010-09-22 富士通株式会社 基于语义预测的译文获取方法和设备
CN104732571A (zh) * 2013-12-20 2015-06-24 上海莱凯数码科技有限公司 一种数码动画制作过程中字幕翻译的方法
CN106202061B (zh) * 2016-06-28 2018-09-14 大连民族大学 面向跨境电子商务平台的汉英蒙藏维多语机器翻译系统及方法
CN106897274B (zh) * 2017-01-09 2020-07-14 北京众荟信息技术股份有限公司 一种跨语种的点评复述方法
CN109726292A (zh) * 2019-01-02 2019-05-07 山东省科学院情报研究所 面向大规模多语种数据的文本分析方法和装置
US11074413B2 (en) * 2019-03-29 2021-07-27 Microsoft Technology Licensing, Llc Context-sensitive salient keyword unit surfacing for multi-language survey comments
CN113627201B (zh) * 2021-10-11 2022-02-08 北京达佳互联信息技术有限公司 信息抽取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113627201A (zh) 2021-11-09
WO2023060910A1 (zh) 2023-04-20

Similar Documents

Publication Publication Date Title
CN110543574B (zh) 一种知识图谱的构建方法、装置、设备及介质
TWI677796B (zh) 自然語言的語義提取方法及裝置和電腦儲存介質
CN109101479B (zh) 一种用于中文语句的聚类方法及装置
CN107436864B (zh) 一种基于Word2Vec的中文问答语义相似度计算方法
CN104881458B (zh) 一种网页主题的标注方法和装置
CN112528001B (zh) 一种信息查询方法、装置及电子设备
CN107357777B (zh) 提取标签信息的方法和装置
CN112699645B (zh) 语料标注方法、装置及设备
CN111563384A (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN111309916B (zh) 摘要抽取方法和装置、存储介质和电子装置
CN109918627A (zh) 文本生成方法、装置、电子设备及存储介质
CN111984774B (zh) 搜索方法、装置、设备以及存储介质
CN116012481B (zh) 图像生成处理方法、装置、电子设备及存储介质
CN112633000A (zh) 一种文本中实体的关联方法、装置、电子设备及存储介质
CN112395867A (zh) 同义词挖掘方法、装置、存储介质及计算机设备
CN113627201B (zh) 信息抽取方法、装置、电子设备及存储介质
CN114116997A (zh) 知识问答方法、装置、电子设备及存储介质
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN116049376B (zh) 一种信创知识检索回复的方法、装置和系统
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN110019714A (zh) 基于历史结果的多意图查询方法、装置、设备及存储介质
CN112905752A (zh) 一种智能交互方法、装置、设备以及存储介质
CN112926297A (zh) 处理信息的方法、装置、设备和存储介质
CN111209752A (zh) 一种基于辅助信息的中文抽取性集成无监督摘要的方法
CN112035623B (zh) 智能问答方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant