CN116484829A - 用于信息处理的方法和设备 - Google Patents

用于信息处理的方法和设备 Download PDF

Info

Publication number
CN116484829A
CN116484829A CN202310470808.5A CN202310470808A CN116484829A CN 116484829 A CN116484829 A CN 116484829A CN 202310470808 A CN202310470808 A CN 202310470808A CN 116484829 A CN116484829 A CN 116484829A
Authority
CN
China
Prior art keywords
text
similarity
verb
target text
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310470808.5A
Other languages
English (en)
Inventor
未忠杰
冯璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to CN202310470808.5A priority Critical patent/CN116484829A/zh
Publication of CN116484829A publication Critical patent/CN116484829A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

根据本公开的实施例,提供了用于信息处理的方法和设备。该方法包括获取用于与目标文本比较的参考文本。该方法还包括基于目标文本和参考文本中的词的相应词性,确定动词相似度。动词相似度指示目标文本是否包括动词和参考文本是否包括动词,或目标文本所包括的动词与参考文本所包括的动词的相似程度。该方法进一步包括至少基于动词相似度,确定目标文本与参考文本之间的第一相似度。以此方式,通过在文本比较中考虑动词相似性,可以有利地提高文本相似性比较的准确性。

Description

用于信息处理的方法和设备
技术领域
本公开的示例实施例总体涉及计算机领域,特别地涉及用于信息处理的方法和设备。
背景技术
随着计算机技术的发展,自然语言处理(NLP)已经具有广泛应用,为生产和生活带来便利。在一些NLP场景中,需要比较不同文本以确定其是否相似,例如可能需要确定两个句子是否相似、两个短语是否相似等。文本相似性比较的结果可以进一步用于确定NLP的结果。因此,文本相似性比较的准确性对NLP结果的准确性是重要的。
发明内容
在本公开的第一方面,提供了一种信息处理方法。该方法包括:获取用于与目标文本比较的参考文本;基于所述目标文本和所述参考文本中的词的相应词性,确定动词相似度,动词相似度指示目标文本是否包括动词和参考文本是否包括动词,或目标文本所包括的动词与参考文本所包括的动词的相似程度;以及至少基于动词相似度,确定目标文本与参考文本之间的第一相似度。
在本公开的第二方面,提供了一种电子设备。该电子设备包括至少一个处理电路。至少一个处理电路被配置为:获取用于与目标文本比较的参考文本;基于目标文本和参考文本中的词的相应词性,确定动词相似度,动词相似度指示目标文本是否包括动词和参考文本是否包括动词,或目标文本所包括的动词与参考文本所包括的动词的相似程度;以及至少基于动词相似度,确定目标文本与参考文本之间的第一相似度。
在第二方面的一些实施例中,至少一个处理电路进一步被配置为:基于相应词性,确定目标文本是否包括动词和参考文本是否包括动词;以及响应于确定目标文本包括动词并且参考文本包括动词,基于目标文本中的动词的量化表示和参考文本中的动词的量化表示,确定动词相似度。
在第二方面的一些实施例中,至少一个处理电路进一步被配置为:基于相应词性,确定目标文本是否包括名词和参考文本是否包括名词;响应于确定目标文本包括名词并且参考文本包括名词,基于目标文本中的名词的量化表示和参考文本中的名词的量化表示,确定名词相似度;以及至少基于动词相似度和名词相似度,确定第一相似度。
在第二方面的一些实施例中,至少一个处理电路进一步被配置为:获取基于目标文本的上下文而生成的目标文本的量化表示、以及基于参考文本的上下文而生成的参考文本的量化表示;基于目标文本的量化表示和参考文本的量化表示,确定目标文本与参考文本之间的第二相似度;以及基于动词相似度、名词相似度和第二相似度,确定第一相似度。
在第二方面的一些实施例中,至少一个处理电路进一步被配置为:确定目标文本与参考文本的情感极性是否彼此相反;以及响应于情感极性不彼此相反,至少基于动词相似度来确定第一相似度。
在第二方面的一些实施例中,目标文本和参考文本中的相应文本的情感极性是基于以下至少一项确定的:相应文本中的情感词的情感值,相应文本中是否包括与情感词相关联的否定词,或相应文本中与情感词相关联的程度副词的程度值。
在第二方面的一些实施例中,至少一个处理电路进一步被配置为:针对多个候选文本中的每个候选文本,基于目标文本中的各个词的量化表示和候选文本中的各个词的量化表示,确定候选文本与目标文本之间的第三相似度;以及将第三相似度大于第一阈值相似度的候选文本确定为参考文本。
在第二方面的一些实施例中,目标文本用于描述第一事件,参考文本用于描述第二事件。至少一个处理电路进一步被配置为:响应于第一相似度大于第二阈值相似度,确定第一事件与第二事件具有相似关系。
在本公开的第三方面,提供了一种电子设备。该设备包括至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。
在本公开的第四方面,提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序,计算机程序可由处理器执行以实现第一方面的方法。
应当理解,本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。
附图说明
结合附图并l参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了本公开的实施例能够在其中实现的示例环境的示意图;
图2示出了根据本公开的一些实施例的用于文本比较的架构的示意图;
图3示出了根据本公开的一些实施例的文本比较的示例过程的流程图;
图4示出了根据本公开的一些实施例的信息处理的过程的流程图;以及
图5示出了能够实施本公开的多个实施例的电子设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
需要注意的是,本文中所提供的任何节/子节的标题并不是限制性的。本文通篇描述了各种实施例,并且任何类型的实施例都可以包括在任何节/子节下。此外,在任一节/子节中描述的实施例可以以任何方式与同一节/子节和/或不同节/子节中描述的任何其他实施例相结合。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。
在本文中所使用的术语“电路”可以指硬件电路和/或硬件电路和软件的组合。例如,电路可以是模拟和/或数字硬件电路与软件/固件的组合。作为另一示例,电路可以是具有软件的硬件处理器的任何部分,硬件处理器包括(多个)数字信号处理器、软件和(多个)存储器,其一起工作以使装置能够工作以执行各种功能。在又一示例中,电路可以是硬件电路和/或处理器,例如微处理器或微处理器的一部分,其需要用于操作的软件/固件,但是当不需要用于操作时软件可以不存在。如本文所使用的,术语“电路”也涵盖仅硬件电路或处理器或者硬件电路或处理器的一部分及其(或它们)随附软件和/或固件的实现。
如本文中所使用的,术语“文本”可以指代任何长度的语言。作为示例,文本可以指代一个或多个单词、短语、句子的一部分、句子等。
如本文中所使用的,术语“事件”是指参与者所参与的某些行为或情况的发生、或客观状态的改变。描述事件的文本可以包含多个词,用来描述事件的发生和事件的一个组成部分。在形式上,事件的因素可以包括事件的触发字或者类型、事件的主要参与人、事件发生的时间及地点等。
如本文中所使用的,术语“相似文本对”是指表述不同但表达的语义相同的文本。例如,文本“价格的上涨”和文本“价格上行”是相似文本对。类似地,术语“相似事件对”是指事件的描述文字不同但表达的语义相同的事件。例如,事件“价格的上涨”和事件“价格上行”是相似事件对。
如本文中所使用的,术语“词”可以具有任何合适的粒度。例如,对于一种语言,“词”可以包括一个或多个字。对于另一种语言,“词”可以是由一个或多个字符组成的单个词。
示例环境和基本原理
图1示出了本公开的实施例能够在其中实现的示例环境100的示意图。环境100包括从一个或多个参考文本120-1、120-2、……、120-N,其也统称或单独称为参考文本120,其中N是大于等于1的整数。针对待处理的目标文本110,电子设备150从参考文本120中查找是否存在与目标文本110相似的文本。也即,电子设备150执行文本相似度确定。
在环境100中,电子设备150可以是任意类型的具有计算能力的设备,包括终端设备。终端设备可以是任意类型的移动终端、固定终端或便携式终端,包括移动手机、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、媒体计算机、多媒体平板、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者前述各项的任意组合,包括这些设备的配件和外设或者其任意组合。电子设备120可以是任意类型的具有计算能力的设备,包括服务端设备。服务端设备例如可以包括计算系统/服务器,诸如大型机、边缘计算节点、云环境中的计算设备,等等。
在一些实施例中,目标文本110和参考文本120分别用于描述事件。通过比较目标文本110和参考文本120,可以确定所描述的事件是否相似。事件相似度的确定可以用于查询事理图谱或构建事理图谱。
事理图谱是一个描述事件之间演化规律和模式的事理逻辑知识库。在结构上,事理图谱是一个由节点和边组成的有向图,其中节点代表事件,有向边代表关系,有向边代表事件之间的顺承、因果、条件和上下位等逻辑关系。作为示例,目标文本110可以是对事理图谱进行查询或检索的语句,参考文本120可以是描述事理图谱中的事件的语句。通过文本相似度确定,可以从事理图谱中确定所查询或检索的事件。
事理图谱通常包含大量具有关联关系的事件对。例如,因果事理图谱通常包含大量具有因果关系的事件对,描述了事件之间的因果传递关系。由于事件数量众多,在事理图谱的构建过程中可能出现较多表述不一致但实际含义相同的事件。如果不考虑事件的相似性,会在事理图谱中引入重复的节点,从而造成大量的冗余。这会降低事件链条传递的准确性和穿透性。因此,在构建事理图谱过程中可以通过事件相似度确定来对这些相似的事件进行合并,以简化网络结构和提高事理图谱的质量。
作为另一示例,在应用于事理图谱构建的情况下,目标文本110可以用于描述从媒体内容(例如,新闻)中提取的事件,参考文本120用于描述事理图谱中的现有事件。通过文本相似度确定,可以确定新提取的事件是否需要与现有事件合并。
在一些实施例中,文本相似度确定可以应用于搜索推荐。目标文本110可以是要搜索的当前关键词或语句,参考文本120可以是已有搜索结果的历史关键词或语句。通过文本相似度确定,与当前关键词或语句相似的历史关键词或语句的搜索结果可以被推荐给用户作为搜索推荐。
在一些实施例中,文本相似度确定可以应用于自动问答。目标文本110可以是与当前问题对应的语句,参考文本120可以是与已有答案的历史问题或参考问题对应的语句。通过文本相似度确定,可以确定与当前问题相似的历史问题或参考问题,并且该历史问题或参考问题的答案可以用作当前问题的答案。
在一些实施例中,文本相似度确定可以应用于文本分类。目标文本110可以是待分类文本,参考文本120可以是已分类文本。通过文本相似度确定,可以查找到与待分类文本相似的已分类文本,并且该已分类文本的类别可以用作待分类文本的分类结果。
应当理解,仅出于示例性的目的描述环境100的结构和功能,而不暗示对于本公开的范围的任何限制。此外,以上所描述的应用场景仅是示例性的,而无意限制本公开的范围。本公开的实施例的信息处理方案可以应用于任何合适的场景。
为了比较文本,已经提出了一些相似性计算方案。在一些方案中,考虑两个文本中的名词之间的相似性或句子相似性来确定两个文本是否相似。然而,这可能导致错误的判断。例如,如果仅考虑名词相似性,“石油价格上行”和“石油价格下行”可能被错误地判断为相似文本。
为了至少部分地解决以上问题中的一个或多个和其他潜在问题,本公开的实施例提出了一种用于信息处理的方案。根据一个或多个实施例,获取用于与目标文本比较的参考文本。基于目标文本和参考文本中的词的相应词性,确定动词相似度。动词相似度指示目标文本是否包括动词和参考文本是否包括动词,或指示目标文本所包括的动词与参考文本所包括的动词的相似程度。至少基于动词相似度,确定目标文本与参考文本是否相似。
以此方式,通过在文本比较中考虑动词相似性,可以有利地提高文本相似性比较的准确性。文本相似性比较准确性的提高又可以有利地提高NLP结果的准确性。例如,在事理图谱的应用场景中,可以准确地查询到用户所感兴趣的事件的相关事理图谱,或者可以帮助降低事理图谱的冗余,以构建高质量的事理图谱。又如,在文本分类的场景中,可以有利于实现准确的文本分类。
为了理解以上优点及其他优点,下面继续结合附图来描述本公开的示例实施例。
文本比较的示例架构
图2示出了根据本公开的一些实施例的用于文本比较的架构200的示意图。架构200可以实现在电子设备150中。下面结合图1来描述架构200。如图2所示,架构200包括参考文本获取模块210,其被配置为获取用于与目标文本110比较的参考文本120。例如,在事理图谱的场景中,参考文本获取模块210可以获取描述事理图谱中的现有事件的文本作为参考文本。
在一些实施例中,参考文本获取模块210可以从多个候选文本中选择参考文本。例如,在事理图谱中可能存在大量的现有事件,这些事件中的一些可能与目标文本110所描述的事件相差较大,因此可以将描述这些事件的文本过滤掉。也即,在这种实施例中,可以对大量的候选文本进行粗略的筛选。为了选择用于比较的参考文本,可以使用较高效的文本相似度计算方法。例如,可以采用Jaccard相似度或基于词向量的文本相似度。
在一些实施例中,参考文本获取模块210可以采用基于词向量的文本相似度。针对每个候选文本,可以基于目标文本110中到的各个词的量化表示(例如,词向量)和候选文本中的各个词的量化表示,确定候选文本与目标文本之间的相似度。例如,各个词的量化表示的平均可以视为相应文本的量化表示。然后,可以利用目标文本110的量化表示与候选文本的量化表示来确定目标文本110与候选文本之间的相似度。应当理解的是,在此确定的相似度是中间结果,其仅用于选择参考文本。该相似度大于阈值相似度(也称为第一阈值相似度)的候选文本可以被确定为参考文本。
作为示例,可以利用基于word2vec模型来计算文本相似度。首先可以使用word2vec模型分别对目标文本110和候选文本进行编码。可以利用word2vec模型,生成组成文本的各个字的字向量。这些字向量的均值可以作为表示文本的文本向量。然后,可以计算目标文本110的文本向量与候选文本的文本向量的余弦值作为相似度。如果该相似度大于第一阈值相似度,意味着这两个文本可能相似。相应地,该候选文本可以被选择为参考文本120。
在一些实施例中,为了提高文本筛选的效率,可以事先生成每个候选文本的量化表示,并将其存储在数据库中备用。这样,在文本筛选过程中,可以直接从数据库中读取各个候选文本的量化表示,来与目标文本的量化表示进行比较。
在这种实施例中,通过采用计算效率较高的算法对较大数目的候选文本进行粗略的筛选,可以过滤掉大部分不相似的文本对。以此方式,可以大大降低后续处理的负荷。
架构200还包括词相似度确定模块230,其被配置为基于参考文本120和目标文本110中的各个词的相应词性,确定词相似度。词相似度可以指示目标文本110和参考文本120在词性相同的词方面的相似度。换言之,词相似度可以指示目标文本110是否包括某一词性的词和参考文本120是否包括该词性的词,或者指示目标文本110所包括的该词性的词与参考文本120所包括的该词性的词的相似程度。词相似度确定模块230可以采用任何合适的算法对目标文本110和参考文本120进行分词和词性确定。本公开的范围在此方面不受限制。
可以以任何合适的方法确定词相似度。在一些实施例中,针对某个词性,如果目标文本110和参考文本120中的一个文本包括该词性的词而另一文本不包括该词性的词,那么关于该词性的相似度可以被确定为表示不相似的第一值,例如0。如果目标文本110和参考文本120均不包括该词性的词,那么关于该词性的相似度可以被确定为表示相似的第二值,例如1。如果目标文本110和参考文本120均包括该词性的词,那么可以基于目标文本110所包括的该词性的词与参考文本120所包括的该词性的词之间的相似度,确定关于该词性的相似度。作为示例,可以将目标文本110所包括的该词性的词的量化表示(例如,利用word2vec模型得到的向量)和参考文本120所包括的该词性的词的量化表示(例如,利用word2vec模型得到的向量)之间的余弦值,确定为关于该词性的相似度。
词相似度确定模块230可以包括一个或多个模块,以用于确定相应词性的相似度。如图2所示,动词相似度确定模块231可以被配置为基于目标文本110和参考文本120中的词的相应词性,确定动词相似度。动词相似度可以指示目标文本110和参考文本120关于动词的相似度。换言之,动词相似度可以指示目标文本110是否包括动词和参考文本120是否包括动词,或者指示目标文本110所包括的动词与参考文本120所包括的动词的相似程度。
可以以任何合适的方法确定动词相似度。在一些实施例中,如果目标文本110和参考文本120中的一个文本包括动词而另一文本不包括动词,那么动词相似度可以被确定为表示不相似的第一值,例如0。如果目标文本110和参考文本120均不包括动词,那么动词相似度可以被确定为表示相似的第二值,例如1。如果目标文本110和参考文本120均包括动词,那么可以将目标文本110所包括的动词与参考文本120所包括的动词之间的语义相似度,确定为动词相似度。作为示例,可以基于目标文本110所包括的动词的量化表示和参考文本120所包括的动词的量化表示,确定动词相似度。
例如,可以利用word2vec模型对目标文本110和参考文本120中的动词分别编码,得到量化表示V1verb和V2verb。量化表示V1verb与V2verb的余弦值cos(V1verb,V2verb)可以被确定为动词相似度。如果文本中存在多个动词,文本动词的量化表示可以是这些动词的量化表示的平均,或者可以针对每对动词都确定相似度,然后计算多对动词的平均相似度。
应当理解,以上描述的确定动词相似度的方式仅是示例性,而无意限制本公开的范围。也可以采用其他合适的方式来确定动词相似度。例如,可以进一步考虑动词的数目。又如,可以分析动词的语义并且基于语义来确定相似度。
在一些实施例中,词相似度确定模块230还可以包括名词相似度确定模块232,其被配置为基于目标文本110和参考文本120中的词的相应词性,确定名词相似度。名词相似度可以指示目标文本110和参考文本120关于名词的相似度。换言之,名词相似度可以指示目标文本110是否包括名词和参考文本120是否包括名词,或者指示目标文本110所包括的名词与参考文本120所包括的名词的相似程度。
可以以任何合适的方法确定名词相似度。在一些实施例中,如果目标文本110和参考文本120中的一个文本包括名词而另一文本不包括名词,那么名词相似度可以被确定为表示不相似的第一值,例如0。如果目标文本110和参考文本120均不包括名词,那么名词相似度可以被确定为表示相似的第二值,例如1。如果目标文本110和参考文本120均包括名词,那么可以将目标文本110所包括的名词与参考文本120所包括的名词之间的语义相似度,确定为名词相似度。作为示例,可以基于目标文本110所包括的名词的量化表示和参考文本120所包括的名词的量化表示,确定名词相似度。
例如,可以利用word2vec模型对目标文本110和参考文本120中的名词分别编码,得到名词的量化表示V1noun和V2noun。量化表示V1noun与V2noun的余弦值cos(V1noun,V2noun)可以被确定为名词相似度。如果文本中存在多个名词,文本动词的量化表示可以是这些名词的量化表示的平均,或者可以针对每对名词都确定相似度,然后计算多对名词的平均相似度。
以上描述了动词相似度和名词相似度。在另一些实施例中,可以考虑关于其他词性(诸如,形容词)的相似度。例如,可以取决于应用场景考虑关于其他词性的相似度。
在一些实施例中,架构200还可以包括文本相似度确定模块240,其被配置为基于目标文本110和参考文本120的上下文,确定目标文本110与参考文本120之间的相似度,也称为第二相似度或文本相似度。应当理解的是,在此确定的相似度是中间结果,其用于与其他类型的相似度(例如,动词相似度、名词相似度)结合来给出文本比较的结果。
文本相似度确定模块240可以获取基于目标文本110的上下文而生成的目标文本110的量化表示、以及基于参考文本120的上下文而生成的参考文本120的量化表示。而后,文本相似度确定模块240可以基于目标文本110的量化表示和参考文本120的量化表示,确定目标文本110与参考文本120之间的文本相似度。
例如,可以利用深度学习的语言模型(诸如,BERT模型)分别对目标文本110和参考文本120编码,得到文本的量化表示V1sen和V2sen。量化表示V1sen与V2sen的余弦值可以被确定为文本相似度。
文本通常具有情感极性,例如正向、负向或中性。在一些情况下,关于动词和名词具有较高相似度的文本可能具有相反的情感极性。例如,文本“价格上涨”和“价格难上涨”的情感极性相反。有鉴于此,在一些实施例中,为了确定文本是否相似,可以将目标文本110和参考文本120的情感极性纳入考虑。
如图2所示,架构200可以包括情感极性确定模块220,其被配置为确定目标文本110和参考文本120的相应极性。情感极性确定模块220可以采用任何合适的算法确定情感极性。在一些实施例中,可以采用经典机器学习算法,例如朴素贝叶斯、支持向量机等。在一些实施例中,可以采用深度学习算法,例如循环神经网络模型等。
在一些实施例中,可以利用情感词典来确定目标文本110和参考文本120的相应情感极性。针对任一文本,可以利用各种合适的词典(诸如,情绪词典、否定词词典、程度副词词典)提取文本中的情感词、否定词和程度副词。而后,可以基于该文本中的情感词的情感值、该文本中是否包括与情感词相关联的否定词、或该文本中与情感词相关联的程度副词的程度值,确定文本的情感极性。
作为示例,可以根据下式计算目标文本110或参考文本120的情感极性:
其中Se表示情感极性得分,i表示文本中的第i个情感词组。两个情感词之间的所有否定词和程度副词与这两个情感词中的后一情感词构成一个情感词组。例如,“不是很友好”可以组成一个情感词组,其中“不是”为否定词,“很”是程度副词,“友好”是情感词。N的取值为0或1,1表示第i个情感词组含有否定词,0表示第i个情感词组不含否定词。wadv(i)代表第i个情感词组中的程度副词的程度值或权重,其与程度副词所表示的强烈程度有关。wword(i)表示第i个情感词组中的情感词的情感值,情感值大于0表示积极情绪,小于0表示消极情绪,等于0表示中性。
架构200还包括比较结果生成模块250,其被配置为生成目标文本110和参考文本120是否相似的比较结果。在一些实施例中,比较结果生成模块250可以基于情感极性、动词相似度、名词相似度和文本相似度,来确定目标文本110和参考文本120是否相似。例如,可以对情感极性、动词相似度、名词相似度和文本相似度进行加权求和。如果加权求和的结果大于阈值,可以确定目标文本110与参考文本120相似。
在一些实施例中,可以首先执行情感极性一致性判断。在目标文本110与参考文本120的情感极性不相反的情况下,再基于动词相似度、名词相似度和文本相似度来确定目标文本110与参考文本120之间的相似度,也称为最终相似度。例如,最终相似度可以是动词相似度、名词相似度和文本相似度的加权平均,如下式所示:
Score=α×cos(V1sen,V2sen)+β×cos(V1noun,V2noun)+γ×cos(V1verb,V2verb)(2)
其中Score表示目标文本110与参考文本120之间的最终相似度;α、β和γ分别表示动词相似度、名词相似度和文本相似度的权重。
下面参考图3描述一个示例过程300。过程300用于比较文本A和文本B是否相似,例如文本A可以视为目标文本110的示例,文本B可以视为参考文本120的示例。
在框305,基于词向量确定文本的相似度。例如,上文参考图2所描述的,基于word2vec模型生成词向量,然后基于词向量的平均确定文本向量。而后,可以利用文本A和文本B的向量的余弦值来确定文本的相似度,也称为基于词向量的相似度。在框305,确定基于词向量的相似度是否大于阈值。
如果基于词向量的相似度不大于阈值,则过程300结束,也即文本B不会作为参考文本进行进一步的精细比较。如果基于词向量的相似度大于阈值,则过程300进行到框315。在框315,确定文本A和文本B中的各个词的词性。例如,可以利用任何合适的方法分别对文本A和文本B分词,并且确定每个词的词性。
接下来,执行情感极性一致性判断。在框320,使用词典匹配情感词、否定词和程度副词。例如,可以使用情感词典、否定词词典、程度副词词典,分别确定文本A和文本B中的情感词、否定词、程度副词。在框325,分别确定文本A和文本B的情感极性。例如,可以分别根据公式(1)来生成文本A的情感极性得分SeA和文本B的情感极性得分SeB。
在框330,确定文本A和文本B的情感极性是否相反。如果情感极性相反,则认为文本A和文本B不相似,相应地,过程300结束。如果文本A和文本B的情感极性不相反,则这两个文本可能相似。相应地,过程300进行到框335。
在框335,分别确定文本A和文本B中的名词的词向量。例如,在某个文本包括多个名词的情况下,可以对各个名词的词向量求和。在框340,确定文本A和文本B的名词相似度。例如,计算文本A的名词集合与文本B的名词集合的词向量之间的余弦值可以作为名词相似度。
在框345,分别确定文本A和文本B中的动词的词向量。例如,在某个文本包括多个动词的情况下,可以对各个动词的词向量求和。在框350,确定文本A和文本B的动词相似度。例如,计算文本A的动词集合与文本B的动词集合的词向量之间的余弦值可以作为动词相似度。
在框360,基于深度学习模型,分别获取文本A和文本B的文本向量。例如,可以利用BERT模型来生成文本A的文本向量A和文本B的文本向量B。在框365,确定基于深度学习模型的文本相似度。例如,文本向量A和文本向量B的余弦值可以被确定为基于深度学习模型的文本相似度。
在框370,对名词相似度、动词相似度、基于深度学习模型的文本相似度加权求和,以得到最终相似度。例如,可以根据公式(2)来计算最终相似度。在框375,根据阈值生成比较结果。如果在框370确定的最终相似度不大于阈值,则可以确定文本A与文本B不相似。
如果在框370确定的最终相似度大于阈值,则可以确定文本A和文本B相似。相应地,可以得到NLP任务的处理结果。例如,在事理图谱的场景中,可以确定文本A描述的事件与文本B描述的事件是相似事件。在文本分类的场景中,可以确定文本A和文本B可以被划分为同一类。
应当理解,过程300仅是文本相似度确定的示例实现,而无意限制本公开的范围。可以对过程300进行各种合适的变型。
作为示例,表1示出了示例过程300中主要步骤的耗时。
表1
从表1可以看出,对文本进行筛选的步骤运行效率高,可以用来过滤大部分不相似文本。精排(情感极性计算、文本相似度计算、动词相似度计算和名词相似度计算)用来对剩余文本进行筛选,可以有效提升筛选相似文本对的效率。
表2示出了本公开实施例的相似度确定方法的性能示例,其中性能参数F1与精确率和召回率有关,可以综合反映精确率和召回率。表2的性能是对315个相似文本对和700个不相似文本对进行测试得到的。
表2
算法 精确率 召回率 F1 耗时
本公开实施例 96.1% 94.9% 95.5% 13s
与一些传统方案相比,本公开实施例方案的F1值可以提高约18%到28%,并且耗时短(例如,秒级)。由此可见,根据本公开的实施例,能够实现性能的整体提升。
示例过程
图4示出了根据本公开的一些实施例的信息处理的过程400的流程图。过程400可以在电子设备150处实现。为便于讨论,参考图1来描述过程400。
在框410,电子设备150获取用于与目标文本比较的参考文本。例如,在事理图谱场景中,参考文本用于描述事理图谱中的现有事件。
在一些实施中,为了获取参考文本,电子设备150可以针对多个候选文本中的每个候选文本,基于目标文本中的各个词的量化表示和候选文本中的各个词的量化表示,确定候选文本与目标文本之间的第三相似度;以及将第三相似度大于第一阈值相似度的候选文本确定为参考文本。
在框420,电子设备150基于目标文本和参考文本中的词的相应词性,确定动词相似度。动词相似度指示:目标文本是否包括动词和参考文本是否包括动词,或目标文本所包括的动词与参考文本所包括的动词的相似程度。
在一些实施中,为了确定动词相似度,电子设备150可以基于相应词性,确定目标文本是否包括动词和参考文本是否包括动词;以及响应于确定目标文本包括动词并且参考文本包括动词,基于目标文本中的动词的量化表示和参考文本中的动词的量化表示,确定动词相似度。
在框430,电子设备150至少基于动词相似度,确定目标文本与参考文本之间的第一相似度。
在一些实施中,为了确定第一相似度,电子设备150可以基于相应词性,确定目标文本是否包括名词和参考文本是否包括名词;响应于确定目标文本包括名词并且参考文本包括名词,基于目标文本中的名词的量化表示和参考文本中的名词的量化表示,确定名词相似度;以及至少基于动词相似度和名词相似度,确定第一相似度。
在一些实施中,为了确定第一相似度,电子设备150可以获取基于目标文本的上下文而生成的目标文本的量化表示、以及基于参考文本的上下文而生成的参考文本的量化表示;基于目标文本的量化表示和参考文本的量化表示,确定目标文本与参考文本之间的第二相似度;以及基于动词相似度、名词相似度和第二相似度,确定第一相似度。
在一些实施中,为了确定第一相似度,电子设备150可以确定目标文本与参考文本的情感极性是否彼此相反;以及响应于情感极性不彼此相反,至少基于动词相似度来确定第一相似度。
在一些实施中,目标文本和参考文本中的相应文本的情感极性是基于以下至少一项确定的:相应文本中的情感词的情感值,相应文本中是否包括与情感词相关联的否定词,或相应文本中与情感词相关联的程度副词的程度值。
在一些实施中,目标文本用于描述第一事件,参考文本用于描述第二事件,并且电子设备150还可以:响应于第一相似度大于第二阈值相似度,确定第一事件与第二事件具有相似关系。
示例设备
图5示出了示出了其中可以实施本公开的一个或多个实施例的电子设备500的框图。应当理解,图5所示出的电子设备500仅仅是示例性的,而不应当构成对本文所描述的实施例的功能和范围的任何限制。图5所示出的电子设备500可以用于实现图1的电子设备150。
如图5所示,电子设备500是通用电子设备的形式。电子设备500的组件可以包括但不限于一个或多个处理器或处理单元510、存储器520、存储设备530、一个或多个通信单元540、一个或多个输入设备550以及一个或多个输出设备560。处理单元510可以是实际或虚拟处理器并且能够根据存储器520中存储的程序来执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高电子设备500的并行处理能力。
电子设备500通常包括多个计算机存储介质。这样的介质可以是电子设备500可访问的任何可以获取的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器520可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如,只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备530可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如闪存驱动、磁盘或者任何其他介质,其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在电子设备500内被访问。
电子设备500可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图5中示出,可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中,每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器520可以包括计算机程序产品525,其具有一个或多个程序模块,这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。
通信单元540实现通过通信介质与其他电子设备进行通信。附加地,电子设备500的组件的功能可以以单个计算集群或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,电子设备500可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。
输入设备550可以是一个或多个输入设备,例如鼠标、键盘、追踪球等。输出设备560可以是一个或多个输出设备,例如显示器、扬声器、打印机等。电子设备500还可以根据需要通过通信单元540与一个或多个外部设备(未示出)进行通信,外部设备诸如存储设备、显示设备等,与一个或多个使得用户与电子设备500交互的设备进行通信,或者与使得电子设备500与一个或多个其他电子设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。
根据本公开的示例性实现方式,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式,还提供了一种计算机程序产品,计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令,而计算机可执行指令被处理器执行以实现上文描述的方法。
这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实现,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。

Claims (9)

1.一种信息处理方法,包括:
获取用于与目标文本比较的参考文本;
基于所述目标文本和所述参考文本中的词的相应词性,确定动词相似度,所述动词相似度指示:
所述目标文本是否包括动词和所述参考文本是否包括动词,或
所述目标文本所包括的动词与所述参考文本所包括的动词的相似程度;以及
至少基于所述动词相似度,确定所述目标文本与所述参考文本之间的第一相似度。
2.根据权利要求1所述的方法,其中确定所述动词相似度包括:
基于所述相应词性,确定所述目标文本是否包括动词和所述参考文本是否包括动词;以及
响应于确定所述目标文本包括动词并且所述参考文本包括动词,基于所述目标文本中的动词的量化表示和所述参考文本中的动词的量化表示,确定所述动词相似度。
3.根据权利要求1所述的方法,其中确定所述第一相似度包括:
基于所述相应词性,确定所述目标文本是否包括名词和所述参考文本是否包括名词;
响应于确定所述目标文本包括名词并且所述参考文本包括名词,基于所述目标文本中的名词的量化表示和所述参考文本中的名词的量化表示,确定名词相似度;以及
至少基于所述动词相似度和所述名词相似度,确定所述第一相似度。
4.根据权利要求3所述的方法,其中确定所述第一相似度包括:
获取基于所述目标文本的上下文而生成的所述目标文本的量化表示、以及基于所述参考文本的上下文而生成的所述参考文本的量化表示;
基于所述目标文本的量化表示和所述参考文本的量化表示,确定所述目标文本与所述参考文本之间的第二相似度;以及
基于所述动词相似度、所述名词相似度和所述第二相似度,确定所述第一相似度。
5.根据权利要求1所述的方法,其中确定所述第一相似度包括:
确定所述目标文本与所述参考文本的情感极性是否彼此相反;以及
响应于所述情感极性不彼此相反,至少基于所述动词相似度来确定所述第一相似度。
6.根据权利要求5所述的方法,其中所述目标文本和所述参考文本中的相应文本的情感极性是基于以下至少一项确定的:
所述相应文本中的情感词的情感值,
所述相应文本中是否包括与所述情感词相关联的否定词,或
所述相应文本中与所述情感词相关联的程度副词的程度值。
7.根据权利要求1所述的方法,其中获取所述参考文本包括:
针对多个候选文本中的每个候选文本,基于所述目标文本中的各个词的量化表示和所述候选文本中的各个词的量化表示,确定所述候选文本与所述目标文本之间的第三相似度;以及
将所述第三相似度大于第一阈值相似度的候选文本确定为所述参考文本。
8.根据权利要求1所述的方法,其中所述目标文本用于描述第一事件,所述参考文本用于描述第二事件,并且所述方法还包括:
响应于所述第一相似度大于第二阈值相似度,确定所述第一事件与所述第二事件具有相似关系。
9.一种电子设备,包括:
至少一个处理电路,所述至少一个处理电路被配置为执行根据权利要求1至8任一项所述的方法。
CN202310470808.5A 2023-04-26 2023-04-26 用于信息处理的方法和设备 Pending CN116484829A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310470808.5A CN116484829A (zh) 2023-04-26 2023-04-26 用于信息处理的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310470808.5A CN116484829A (zh) 2023-04-26 2023-04-26 用于信息处理的方法和设备

Publications (1)

Publication Number Publication Date
CN116484829A true CN116484829A (zh) 2023-07-25

Family

ID=87224814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310470808.5A Pending CN116484829A (zh) 2023-04-26 2023-04-26 用于信息处理的方法和设备

Country Status (1)

Country Link
CN (1) CN116484829A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117574243A (zh) * 2024-01-15 2024-02-20 河北网新数字技术股份有限公司 一种数据分析方法、装置及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117574243A (zh) * 2024-01-15 2024-02-20 河北网新数字技术股份有限公司 一种数据分析方法、装置及系统
CN117574243B (zh) * 2024-01-15 2024-04-26 河北网新数字技术股份有限公司 一种数据分析方法、装置及系统

Similar Documents

Publication Publication Date Title
CN108280061B (zh) 基于歧义实体词的文本处理方法和装置
US11544474B2 (en) Generation of text from structured data
RU2678716C1 (ru) Использование автоэнкодеров для обучения классификаторов текстов на естественном языке
US8543565B2 (en) System and method using a discriminative learning approach for question answering
CN106874441B (zh) 智能问答方法和装置
US20200311145A1 (en) System and method for generating an answer based on clustering and sentence similarity
CN110162771B (zh) 事件触发词的识别方法、装置、电子设备
WO2021189951A1 (zh) 文本搜索方法、装置、计算机设备和存储介质
US11768869B2 (en) Knowledge-derived search suggestion
Atia et al. Increasing the accuracy of opinion mining in Arabic
CN111241813B (zh) 语料扩展方法、装置、设备及介质
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
US20160224663A1 (en) Context based passage retreival and scoring in a question answering system
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN116484829A (zh) 用于信息处理的方法和设备
US20230119161A1 (en) Efficient Index Lookup Using Language-Agnostic Vectors and Context Vectors
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
CN114611486A (zh) 信息抽取引擎的生成方法及装置、电子设备
CN111460177A (zh) 影视类表情搜索方法、装置、存储介质、计算机设备
CN116383340A (zh) 信息搜索方法、装置、电子设备和存储介质
CN116028626A (zh) 文本匹配方法、装置、存储介质以及电子设备
CN113505196B (zh) 基于词性的文本检索方法、装置、电子设备及存储介质
CN111858899B (zh) 语句处理方法、装置、系统和介质
KR20070118154A (ko) 정보 처리 장치 및 방법, 및 프로그램 기록 매체
CN112926297A (zh) 处理信息的方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination