CN110516254A - 一种信息处理方法及电子设备 - Google Patents

一种信息处理方法及电子设备 Download PDF

Info

Publication number
CN110516254A
CN110516254A CN201910815033.4A CN201910815033A CN110516254A CN 110516254 A CN110516254 A CN 110516254A CN 201910815033 A CN201910815033 A CN 201910815033A CN 110516254 A CN110516254 A CN 110516254A
Authority
CN
China
Prior art keywords
word
cluster
data
entity word
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910815033.4A
Other languages
English (en)
Other versions
CN110516254B (zh
Inventor
王萌萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201910815033.4A priority Critical patent/CN110516254B/zh
Publication of CN110516254A publication Critical patent/CN110516254A/zh
Application granted granted Critical
Publication of CN110516254B publication Critical patent/CN110516254B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种信息处理方法及电子设备,方法包括:获取预设的第一数据,根据预设提取规定所定义的词汇权重,从第一数据中提取出至少一个实体词;确定与实体词相关联的关联词,建立实体词与关联词之间的关联边,以构建对应于第一数据的共现图,其中,实体词、关联词以及关联边均对应有各自的权重;基于预设聚类规定对共现图进行聚类操作,形成至少一个图聚类,图聚类中至少包括一个实体词及相应的关联词;基于图聚类中的实体词和/或关联词的含义,确定图聚类对应的表达意图,以确定第一数据的表达意图。该方法可以每个实体词从各个角度全面归纳出第一数据的实际意图;实现了对第一数据的智能分析,从而能够对当前数据进行精确而有效的处理。

Description

一种信息处理方法及电子设备
技术领域
本申请涉及人工智能领域,特别涉及一种信息处理方法及电子设备。
背景技术
在信息处理的过程中,经常会对大量的数据进行识别,以获取该数据的准确的意思表达,例如在智能客服场景中,需要对用户发出的信息进行识别,以得到用户所要表达内容的真实含义,但是对于用户发出的大量信息,往往需要人工进行归纳处理,费事费力,处理效率低下。即使使用其他算法来处理,也会造成处理结果不是用户真实意图的表达,即会出现对于目标信息的实际意图表达不准确的现象。
发明内容
本申请实施例的目的在于提供一种信息处理方法及电子设备,该信息处理方法,能够对第一数据进行智能分析,并准确的确定该第一数据所要表达的实际意图,有效的提高了对信息的处理效率。
为了解决上述技术问题,本申请的实施例采用了如下技术方案:一种信息处理方法,包括:
获取预设的第一数据,根据预设提取规定所定义的词汇权重,从所述第一数据中提取出至少一个实体词;
确定与所述实体词相关联的关联词,建立所述实体词与所述关联词之间的关联边,以构建对应于所述第一数据的共现图,其中,所述实体词、所述关联词以及所述关联边均对应有各自的权重;
基于预设聚类规定对所述共现图进行聚类操作,形成至少一个图聚类,其中所述图聚类中至少包括一个实体词及相应的关联词;
基于所述图聚类中的实体词和/或所述关联词的含义,确定所述图聚类对应的表达意图,以确定所述第一数据的表达意图。
作为优选,所述的基于预设聚类规定对所述共现图进行聚类操作,形成至少一个图聚类包括:
以从所述第一数据中获取达到特定权重的第一类型词汇作为节点;
将所有的所述节点进行聚类操作,并当包含所述关联边最多的所述图聚类的内部边与外部边之间的数量关系符合特定条件,则停止所述聚类操作,其中所述内部边为所述关联边最多的所述图聚类内的节点之间的关联边,所述外部边为所述关联边最多的所述图聚类内的节点与其他图聚类内的节点之间的关联边。
作为优选,所述的基于所述图聚类中的实体词和/或所述关联词的含义,确定所述图聚类对应的表达意图包括:
基于所述实体词、相应的所述关联词以及相应的所述关联边的权重,在所述图聚类中选定特定数量的代表词汇;
根据所述代表词汇的含义,确定所述图聚类对应的表达意图,以确定所述第一数据的表达意图。
作为优选,获取预设的第一数据,根据预设提取规定所定义的词汇权重,从所述第一数据中提取出至少一个实体词包括:
从第一数据中获取达到特定权重的第一类型词汇;
根据所述预设提取规定,在达到特定权重的所述第一类型词汇中选定所述实体词;
对选定的所述实体词进行的语义规范化的第一操作,以使经过第一操作后的所述实体词的语义表述达到特定标准。
作为优选,所述的确定与所述实体词相关联的关联词,建立所述实体词与所述关联词之间的关联边,以构建对应于所述第一数据的共现图包括:
以所述实体词为参考点,在所述第一数据所表现的第一内容中以所述参考点为基础划出特定信息区域;
在特定信息区域中选出与所述实体词相关联的所述关联词,并建立所述实体词及其对应的所述关联词之间的关联边;
根据所述实体词及其对应的所述关联词共同出现在所述特定信息区域中或者所述第一数据中的频率,确定所述关联边的权重。
作为优选,所述方法还包括:
根据所述实体词在所述第一数据中出现的频率确定所述实体词的权重;
根据所述关联词在所述第一数据中出现的频率确定所述关联词的权重。
作为优选,所述方法还包括:
根据体量对所述图聚类进行筛选,将不能达到特定体量的所述图聚类舍弃。
作为优选,所述方法还包括:
根据确定的所述第一数据的表达意图,确定当前数据的表达意图。
本申请实施例还公开了一种电子设备,包括:
获取模块,其配置为获取预设的第一数据,根据预设提取规定所定义的词汇权重,从所述第一数据中提取出至少一个实体词;
处理模块,其配置为确定与所述实体词相关联的关联词,建立所述实体词与所述关联词之间的关联边,以构建对应于所述第一数据的共现图,其中,所述实体词、所述关联词以及所述关联边均对应有各自的权重;
基于预设聚类规定对所述共现图进行聚类操作,形成至少一个图聚类,其中所述图聚类中至少包括一个实体词及相应的关联词;
基于所述图聚类中的实体词或所述关联词的含义,确定所述图聚类对应的表达意图,以确定所述第一数据的表达意图。
作为优选,所述处理模块进一步配置为:
以从所述第一数据中获取达到特定权重的第一类型词汇作为节点;
将所有的所述节点进行聚类操作,并当包含所述关联边最多的所述图聚类的内部边与外部边之间的数量关系符合特定条件,则停止所述聚类操作,其中所述内部边为所述关联边最多的所述图聚类内的节点之间的关联边,所述外部边为所述关联边最多的所述图聚类内的节点与其他图聚类内的节点之间的关联边。
本申请实施例的有益效果至少在于:该信息处理方法可以对每个实体词进行意图归纳,灵活机动,对每个实体词从各个角度全面归纳出目标数据(第一数据)的实际意图;可以根据图聚类的体量大小计算出相应表达意图在第一数据中的重要程度;每个图聚类具有相应的词汇作为其意图的描述,方便用户阅读和理解;进而实现了对第一数据的智能分析,并准确的确定出该第一数据所要表达的实际意图,有效的提高了对信息的处理效率,从而能够根据第一数据对当前的目标数据进行精确而有效的处理。
附图说明
图1为本申请实施例的信息处理方法的流程图;
图2为本申请实施例的图1中步骤S3的流程图;
图3为本申请实施例的图1中步骤S4的流程图;
图4为本申请实施例的图1中步骤S1的流程图;
图5为本申请实施例的图1中步骤S2的流程图;
图6为本申请实施例的信息处理方法的一个具体实施例的流程图;
图7为本申请实施例的电子设备的结构示意图。
具体实施方式
此处参考附图描述本申请的各种方案以及特征。
应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本申请的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本申请的具体实施例;然而,应当理解,所申请的实施例仅仅是本申请的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本申请的相同或不同实施例中的一个或多个。
图1为本申请实施例的信息处理方法的流程图。本申请实施例的一种信息处理方法,可以应用在对大量的数据进行识别的过程中,如在智能客服场景中,利用该方法构建好处理模型,当对客户提出各种各样的问题后能够利用该处理模型对其进行准确的判断从而能够做出相对应的反应。如图1所示并结合图6,该方法包括以下步骤:
S1,获取预设的第一数据,根据预设提取规定所定义的词汇权重,从第一数据中提取出至少一个实体词。本实施例中,可以从预设的场景数据中(如从大量的经验数据中)选取在信息处理过程中可能会涉及到的信息,或者根据实际需要而选取部分信息,或者选取占有特定比例的信息(包括全部的信息)形成第一数据。例如根据以往客服工作中记录的用户提出的各种问题,从中选取相对重要的部分内容作为第一数据。该第一数据具有代表性,例如用户提出的询问关于订单、保单、税费等相关信息且这些信息用户会非常关心且这些信息还会在客服记录中占有较高比例。本实施例中,可以根据实际需要来预先设定第一数据,从而使用时获取该第一数据。第一数据中包括了大量词汇,预设提取规定定义了词汇对应的词汇权重,各个词汇对应的词汇权重可以相同,也可以不同,例如用户关心较多的词汇可以将其词汇权重设置较高,而极少有人注意到的词汇或者很少使用到的词汇可以将其词汇权重设置较低。而对于预设提取规定则可以根据用户实际需要来设置或者根据使用经验来设置或更改。本实施例中,根据词汇权重从第一数据中提取出至少一个实体词,实体词可以是权重达到预设标准的词汇,其为用户和厂商均较为关注的词汇,如实体词可以是上述的订单、保单、税费等需要重点关注的词汇。
S2,确定与实体词相关联的关联词,建立实体词与关联词之间的关联边,以构建对应于第一数据的共现图,其中,实体词、关联词以及关联边均对应有各自的权重。与实体词相关联的有关联词,关联词可以是与实体词配合使用的词汇,例如关联词与实体词可以表达出一段内容的完整含义,实体词与关联词之间具有关联边,该关联边将实体词与关联词联系在一起,将第一数据中的所有实体词与关联词通过相应的关联边进行关联后,能够形成对应于第一数据的共现图,该共现图包含了整个的第一数据的内容,能够将第一数据中的实体词与关联词之间的关系通过图形的方式表达,该共现图中的实体词与关联词以节点的方式出现,至少两个节点之间具有关联边。该共现图中的实体词、关联词以及关联边均对应有各自的权重,而具体的权重可以根据实体词、关联词的重要程度进行设置,而关联边的权重也与相对应的实体词和关联词相关,如相应的实体词与关联词的权重均高于预设值则两者对应的关联边的权重也高于其他的关联边的权重。
S3,基于预设聚类规定对共现图进行聚类操作,形成至少一个图聚类,其中图聚类中至少包括一个实体词及相应的关联词。对共现图进行聚类操作可以是将共现图中的各个节点(包括实体词和关联词)进行聚类操作,使得部分或全部节点聚集,形成至少一个图聚类,例如对共现图进行聚类操作后,共现图中的所有节点可以相互聚集,形成多个图聚类,而图聚类之间可以通过节点相互连接。而预设聚类规定则可以是用户预先定义的聚类规定,例如可以采用Louvain算法或者其他自定义算法,对共现图进行聚类操作。
S4,基于图聚类中的实体词和/或关联词的含义,确定图聚类对应的表达意图,以确定第一数据的表达意图。形成的图聚类中,每个图聚类具有包含了至少一个实体词及其相对应的关联词,当然实体词与相对应的关联词之间具有关联边,每个图聚类具有各自的含义,本实施例中可以基于该图聚类中的实体词和/或关联词的含义来确定,如第一图聚类中包含了实体词“订单”,还包含了与该实体词相关联的“形成时间”,“处理人”,“进度”等关联词,通过“订单”以及相应的“形成时间”,“处理人”,“进度”的含义可以确定该图聚类对应的表达意图。本实施例可以对各个图聚类进行处理,确定各个图聚类对应的表达意图,然后综合所有的图聚类所表达的意图,从而确定了第一数据的实际的表达意图。在一个实施例中,生成的多个图聚类的体量或大或小,在所有的图聚类中,具有较大体量的图聚类的权重相对高于具有较小体量的图聚类的权重。具有较大权重的图聚类所指代的意图在第一数据的整个含义中占有更大的重要度。得到第一数据的表达意图后,可以据此对当前的目标数据进行处理,例如根据第一数据及其相应的表达意图,对用户向客服即时提出的问题进行准确的解答。
该信息处理方法,可以对每个实体词进行意图归纳,灵活机动,对每个实体词从各个角度全面归纳出目标数据(第一数据)的实际意图;可以根据图聚类的体量大小计算出相应表达意图在第一数据中的重要程度;每个图聚类具有相应的词汇作为其意图的描述,方便用户阅读和理解;进而实现了对第一数据的智能分析,并准确的确定出该第一数据所要表达的实际意图,有效的提高了对信息的处理效率,从而能够根据第一数据对当前的目标数据进行精确而有效的处理。
在本申请的一个实施例中,如图2所示,所述的基于预设聚类规定对共现图进行聚类操作,形成至少一个图聚类包括:
S31,以从第一数据中获取达到特定权重的第一类型词汇作为节点;
S32,将所有的节点进行聚类操作,并当包含关联边最多的图聚类的内部边与外部边之间的数量关系符合特定条件,则停止聚类操作,其中内部边为关联边最多的图聚类内的节点之间的关联边,外部边为关联边最多的图聚类内的节点与其他图聚类内的节点之间的关联边。
具体来说,第一数据中包含有多种类型的词汇,例如以词性进行划分的名词、动词等;或者以归属学科进行划分的信息学科词汇、生物科学词汇等。第一数据中的词汇还具有相应权重,同样是第一类型词汇,其权重可能不同,例如将第一数据中的名词作为第一类型词汇,将达到预设权重的名词作为节点设置在共现图中。在对共现图进行聚类操作时,将所有的节点进行聚类操作,使得具有关联关系的节点相互靠拢,在一个实施例中,确定体量最大的图聚类(包含关联边最多),采用预设聚类规定后会使得体量最大的图聚类内的节点之间的内部边尽量的多,而体量最大的图聚类内的节点与其他图聚类内的节点之间的外部边尽量的少。当图聚类的内部边与外部边之间的数量关系符合特定条件,则停止聚类操作,从而使得生成的各个图聚类中的节点更加的“聚集”,例如可以采用Louvain算法或者其他自定算法基于上述步骤,形成多个图聚类。
在本申请的一个实施例中,如图3所示,所述的基于图聚类中的实体词和/或关联词的含义,确定图聚类对应的表达意图包括:
S41,基于实体词、相应的关联词以及相应的关联边的权重,在图聚类中选定特定数量的代表词汇。
实体词、相应的关联词以及相应的关联边具有各自的权重,可以根据其权重在图聚类中选定特定数量的代表词汇。例如,选择特定数量的符合特定权重范围的词汇作为代表词汇,如按照实体词的权重的由高到低的顺序选择特定数据量的词汇作为代表词汇;再例如,基于实体词及其关联词累加得到的权重,按照该权重由高到低的顺序选择特定数据量的词汇作为代表词汇等。
S42,根据代表词汇的含义,确定图聚类对应的表达意图,以确定第一数据的表达意图。
选定的代表词汇能够在一定程度上体现出该图聚类的实际含义,设置能够通过代表词汇来指代对应的图聚类。同一个图聚类包含有至少一个代表词汇,一方面,当第一图聚类仅包含一个代表词汇时该代表词汇的含义便能够被用来指代第一图聚类包含的实际含义;另一方面,当第二图聚类中包含有多个代表词汇,可以将这多个代表词汇所包含的所有含义作为该第二图聚类包含的实际含义,即该第二图聚类包含的实际含义更加丰富,第二图聚类表达的总意图中的多个子意图之间具有关联关系。当确定出了所有的图聚类的表达意图后,便能够确定第一数据的表达意图。
在本申请的一个实施例中,如图4所示并结合图6,获取预设的第一数据,根据预设提取规定所定义的词汇权重,从第一数据中提取出至少一个实体词包括:
S11,从第一数据中获取达到特定权重的第一类型词汇。第一数据中的词汇的类型可以以词性进行划分,或者以归属学科进行划分。在一个实施例中,将以词性进行划分而形成的动词作为第一类型词汇,从第一数据中获取达到特定权重的动词。
S12,根据预设提取规定,在达到特定权重的第一类型词汇中选定实体词。预设提取规定可以作为选定实体词的标准而预先设置,如在达到特定权重的第一类型词汇中始终选择权重最高的词汇作为实体词,或者在达到特定权重的第一类型词汇中选择含义相同或相似的词汇作为实体词。例如,可以选择所有的达到特定权重的动词作为实体词。
S13,对选定的实体词进行的语义规范化的第一操作,以使经过第一操作后的实体词的语义表述达到特定标准。选定的实体词其具体的表述可能并不规范,需要基于语料进行预处理,本实施例中对选定的实体词进行分词,词性标注,错词纠正,并进行单复数还原等语义规范化的第一操作,使得经过第一操作后的实体词的语义表述达到特定标准,从而在随后的构建共现图以及其他处理步骤更加精准。
在本申请的一个实施例中,如图5所示,所述的确定与实体词相关联的关联词,建立实体词与关联词之间的关联边,以构建对应于第一数据的共现图包括:
S21,以实体词为参考点,在第一数据所表现的第一内容中以参考点为基础划出特定信息区域。第一数据可以以文字或符号等形式显示出来,在显示的界面上,可以将实体词作为参考点,并以参考点为基础在显示的界面上划出特定信息区域,例如第一数据以一段文字出现,该段文字中包括了实体词,以该实体词为参考点点,在该段文字上划分出一定的区域范围,如以该实体词为中心,分别向左,向右,以一定的长度截取文本,形成特定信息区域。
S22,在特定信息区域中选出与实体词相关联的关联词,并建立实体词及其对应的关联词之间的关联边。与实体词相关的关联词可能会出现多个,并且相对于实体词分布在多处,如可以在特定信息区域以内,也可以在特定信息区域以外,在特定信息区域以内的关联词与实体词的联系更加紧密,与实体词配合后所表达的含义更加接近于实际情况,本实施例中,在特定信息区域中选出与实体词相关联的关联词,并建立实体词及其对应的关联词之间的关联边。
S23,根据实体词及其对应的关联词共同出现在特定信息区域中或者第一数据中的频率,确定关联边的权重。一方面,特定信息区域中出现的实体词及其对应的关联词的数量越多(频率越高),则说明该实体词及其对应的关联词所表达的内容更加受到关注;另一方面,在整个的第一数据中实体词及其对应的关联词共同出现的频率大,则说明用户在表达整个意愿时,关于实体词及其关联词的含义在整个意愿中重要程度较大。因此本实施例中,根据实体词及其对应的关联词在特定信息区域中或者第一数据中的频率,确定关联边的权重,实体词及其关联词的权重高则相应的关联边的权重也较高,反之则权重较低。
在本申请的一个实施例中,该信息处理方法还包括以下步骤:根据实体词在第一数据中出现的频率确定实体词的权重;根据关联词在第一数据中出现的频率确定关联词的权重。结合上文进一步进行说明,实体词或者关联词在第一数据中出现的频率较大则说明该实体词在整个第一数据中的重要程度较大,例如用户在向客服反映订单的问题,包括订单的单号,相关时间,订单的处理过程,订单的配送信息等,该实体词“订单”在用户在向客服反映订单的问题的整个信息中出现的次数最多,与该实体词相关的内容也非常重要,因此可以将实体词“订单”的权重设置较高,而一些出现频率较低的实体词则可以相对设置其权重较低。
在本申请的一个实施例中,该信息处理方法还包括:根据体量对图聚类进行筛选,将不能达到特定体量的图聚类舍弃。具体来说,不能达到特定体量的图聚类其对整个第一数据的实际意图表达的影响非常小,可以将不能达到特定体量的图聚类舍弃,从而节省了系统资源的消耗,将优先的资源使用在其他信息处理的过程中。
在本申请的一个实施例中,该信息处理方法还包括:根据确定的第一数据的表达意图,确定当前数据的表达意图。当前数据可以是当前需要处理的目标数据,例如用户在向客服(包括人工智能客服)提问时,客服需要对提出的问题进行解答,而当前提出的一些列问题则可以被认为是当前数据,由于第一数据是具有代表性的数据,包含了当前数据的全部或大部分内容,因此,在对该当前数据进行解答时,可以根据确定的第一数据的表达意图,来确定当前数据的表达意图,从而能够对用户的提问进行准确的解答。
本申请的实施例中还提供了一种电子设备,如图7所示并结合图6,该电子设备包括:
获取模块,其配置为获取预设的第一数据,根据预设提取规定所定义的词汇权重,从第一数据中提取出至少一个实体词。本实施例中,可以从预设的场景数据中(如从大量的经验数据中)选取在信息处理过程中可能会涉及到的信息,或者根据实际需要而选取部分信息,或者选取占有特定比例的信息(包括全部的信息)形成第一数据。例如根据以往客服工作中记录的用户提出的各种问题,获取模块从中选取相对重要的部分内容作为第一数据。该第一数据具有代表性,例如用户提出的询问关于订单、保单、税费等相关信息且这些信息用户会非常关心且这些信息还会在客服记录中占有较高比例。本实施例中,可以根据实际需要来预先设定第一数据,从而使用时获取模块获取该第一数据。第一数据中包括了大量词汇,预设提取规定定义了词汇对应的词汇权重,各个词汇对应的词汇权重可以相同,也可以不同,例如用户关心较多的词汇可以将其词汇权重设置较高,而极少有人注意到的词汇或者很少使用到的词汇可以将其词汇权重设置较低。而对于预设提取规定则可以根据用户实际需要来设置或者根据使用经验来设置或更改。本实施例中,根据词汇权重从第一数据中提取出至少一个实体词,实体词可以是权重达到预设标准的词汇,其为用户和厂商均较为关注的词汇,如实体词可以是上述的订单、保单、税费等需要重点关注的词汇。
处理模块,其配置为确定与实体词相关联的关联词,建立实体词与关联词之间的关联边,以构建对应于第一数据的共现图,其中,实体词、关联词以及关联边均对应有各自的权重。
基于预设聚类规定对共现图进行聚类操作,形成至少一个图聚类,其中图聚类中至少包括一个实体词及相应的关联词。
基于图聚类中的实体词或关联词的含义,确定图聚类对应的表达意图,以确定第一数据的表达意图。
具体来说,与实体词相关联的有关联词,关联词可以是与实体词配合使用的词汇,例如关联词与实体词可以表达出一段内容的完整含义,实体词与关联词之间具有关联边,该关联边将实体词与关联词联系在一起,处理模块将第一数据中的所有实体词与关联词通过相应的关联边进行关联后,能够形成对应于第一数据的共现图,该共现图包含了整个的第一数据的内容,能够将第一数据中的实体词与关联词之间的关系通过图形的方式表达,该共现图中的实体词与关联词以节点的方式出现,至少两个节点之间具有关联边。该共现图中的实体词、关联词以及关联边均对应有各自的权重,而具体的权重可以根据实体词、关联词的重要程度进行设置,而关联边的权重也与相对应的实体词和关联词相关,如相应的实体词与关联词的权重均高于预设值则两者对应的关联边的权重也高于其他的关联边的权重。
处理模块对共现图进行聚类操作可以是将共现图中的各个节点(包括实体词和关联词)进行聚类操作,使得部分或全部节点聚集,形成至少一个图聚类,例如对共现图进行聚类操作后,共现图中的所有节点可以相互聚集,形成多个图聚类,而图聚类之间可以通过节点相互连接。而预设聚类规定则可以是用户预先定义的聚类规定,例如可以采用Louvain算法或者其他自定义算法,对共现图进行聚类操作。
形成的图聚类中,每个图聚类具有包含了至少一个实体词及其相对应的关联词,当然实体词与相对应的关联词之间具有关联边,每个图聚类具有各自的含义,本实施例中可以基于该图聚类中的实体词和/或关联词的含义来确定,如第一图聚类中包含了实体词“订单”,还包含了与该实体词相关联的“形成时间”,“处理人”,“进度”等关联词,通过“订单”以及相应的“形成时间”,“处理人”,“进度”的含义可以确定该图聚类对应的表达意图。本实施例处理模块可以对各个图聚类进行处理,确定各个图聚类对应的表达意图,然后综合所有的图聚类所表达的意图,从而确定了第一数据的实际的表达意图。在一个实施例中,生成的多个图聚类的体量或大或小,在所有的图聚类中,具有较大体量的图聚类的权重相对高于具有较小体量的图聚类的权重。具有较大权重的图聚类所指代的意图在第一数据的整个含义中占有更大的重要度。得到第一数据的表达意图后,处理模块可以据此对当前的目标数据进行处理,例如根据第一数据及其相应的表达意图,对用户向客服即时提出的问题进行准确的解答。
该电子设备可以对每个实体词进行意图归纳,灵活机动,对每个实体词从各个角度全面归纳出目标数据(第一数据)的实际意图;可以根据图聚类的体量大小计算出相应表达意图在第一数据中的重要程度;每个图聚类具有相应的词汇作为其意图的描述,方便用户阅读和理解;进而实现了对第一数据的智能分析,并准确的确定出该第一数据所要表达的实际意图,有效的提高了对信息的处理效率,从而能够更具第一数据对当前的目标数据进行精确而有效的处理。
在本申请的一个实施例中,处理模块进一步配置为:以从第一数据中获取达到特定权重的第一类型词汇作为节点;将所有的节点进行聚类操作,并当包含关联边最多的图聚类的内部边与外部边之间的数量关系符合特定条件,则停止聚类操作,其中内部边为关联边最多的图聚类内的节点之间的关联边,外部边为关联边最多的图聚类内的节点与其他图聚类内的节点之间的关联边。
具体来说,第一数据中包含有多种类型的词汇,例如以词性进行划分的名词、动词等;或者以归属学科进行划分的信息学科词汇、生物科学词汇等。第一数据中的词汇还具有相应权重,同样是第一类型词汇,其权重可能不同,例如将第一数据中的名词作为第一类型词汇,将达到预设权重的名词作为节点设置在共现图中。处理模块在对共现图进行聚类操作时,将所有的节点进行聚类操作,使得具有关联关系的节点相互靠拢,在一个实施例中,处理模块确定体量最大的图聚类(包含关联边最多),采用预设聚类规定后会使得体量最大的图聚类内的节点之间的内部边尽量的多,而体量最大的图聚类内的节点与其他图聚类内的节点之间的外部边尽量的少。当图聚类的内部边与外部边之间的数量关系符合特定条件,则处理模块停止聚类操作,从而使得生成的各个图聚类中的节点更加的“聚集”,例如可以采用Louvain算法或者其他自定算法基于上述步骤,形成多个图聚类。
在本申请的一个实施例中,处理模块进一步配置为:基于实体词、相应的关联词以及相应的关联边的权重,在图聚类中选定特定数量的代表词汇;根据代表词汇的含义,确定图聚类对应的表达意图,以确定第一数据的表达意图。
实体词、相应的关联词以及相应的关联边具有各自的权重,处理模块可以根据其权重在图聚类中选定特定数量的代表词汇。例如,选择特定数量的符合特定权重范围的词汇作为代表词汇,如按照实体词的权重的由高到低的顺序选择特定数据量的词汇作为代表词汇;再例如,基于实体词及其关联词累加得到的权重,按照该权重由高到低的顺序选择特定数据量的词汇作为代表词汇等。
选定的代表词汇能够在一定程度上体现出该图聚类的实际含义,处理模块设置能够通过代表词汇来指代对应的图聚类。同一个图聚类包含有至少一个代表词汇,一方面,当第一图聚类仅包含一个代表词汇时该代表词汇的含义便能够被用来指代第一图聚类包含的实际含义;另一方面,当第二图聚类中包含有多个代表词汇,可以将这多个代表词汇所包含的所有含义作为该第二图聚类包含的实际含义,即该第二图聚类包含的实际含义更加丰富,第二图聚类表达的总意图中的多个子意图之间具有关联关系。当确定出了所有的图聚类的表达意图后,便能够确定第一数据的表达意图。
在本申请的一个实施例中,获取模块进一步配置为:从第一数据中获取达到特定权重的第一类型词汇;根据预设提取规定,在达到特定权重的第一类型词汇中选定实体词;对选定的实体词进行的语义规范化的第一操作,以使经过第一操作后的实体词的语义表述达到特定标准。
具体来说,第一数据中的词汇的类型可以以词性进行划分,或者以归属学科进行划分。在一个实施例中,获取模块将以词性进行划分而形成的动词作为第一类型词汇,从第一数据中获取达到特定权重的动词。
预设提取规定可以作为选定实体词的标准而预先设置,如在达到特定权重的第一类型词汇中始终选择权重最高的词汇作为实体词,或者在达到特定权重的第一类型词汇中选择含义相同或相似的词汇作为实体词。例如,可以选择所有的达到特定权重的动词作为实体词。
选定的实体词其具体的表述可能并不规范,需要基于语料进行预处理,本实施例中获取模块对选定的实体词进行分词,词性标注,错词纠正,并进行单复数还原等语义规范化的第一操作,使得经过第一操作后的实体词的语义表述达到特定标准,从而在随后的构建共现图以及其他处理步骤更加精准。
在本申请的一个实施例中,处理模块进一步配置为:以实体词为参考点,在第一数据所表现的第一内容中以参考点为基础划出特定信息区域;在特定信息区域中选出与实体词相关联的关联词,并建立实体词及其对应的关联词之间的关联边;根据实体词及其对应的关联词共同出现在特定信息区域中或者第一数据中的频率,确定关联边的权重。
具体来说,第一数据可以以文字或符号等形式显示出来,在显示的界面上,处理模块可以将实体词作为参考点,并以参考点为基础在显示的界面上划出特定信息区域,例如第一数据以一段文字出现,该段文字中包括了实体词,以该实体词为参考点点,在该段文字上划分出一定的区域范围,如以该实体词为中心,分别向左,向右,以一定的长度截取文本,形成特定信息区域。
与实体词相关的关联词可能会出现多个,并且相对于实体词分布在多处,如可以在特定信息区域以内,也可以在特定信息区域以外,在特定信息区域以内的关联词与实体词的联系更加紧密,与实体词配合后所表达的含义更加接近于实际情况,本实施例中,处理模块在特定信息区域中选出与实体词相关联的关联词,并建立实体词及其对应的关联词之间的关联边。
一方面,特定信息区域中出现的实体词及其对应的关联词的数量越多(频率越高),则说明该实体词及其对应的关联词所表达的内容更加受到关注;另一方面,在整个的第一数据中实体词及其对应的关联词共同出现的频率大,则说明用户在表达整个意愿时,关于实体词及其关联词的含义在整个意愿中重要程度较大。因此本实施例中,处理模块根据实体词及其对应的关联词在特定信息区域中或者第一数据中的频率,确定关联边的权重,实体词及其关联词的权重高则相应的关联边的权重也较高,反之则权重较低。
在本申请的一个实施例中,处理模块进一步配置为:根据实体词在第一数据中出现的频率确定实体词的权重;根据关联词在第一数据中出现的频率确定关联词的权重。结合上文进一步进行说明,实体词或者关联词在第一数据中出现的频率较大则说明该实体词在整个第一数据中的重要程度较大,例如用户在向客服反映订单的问题,包括订单的单号,相关时间,订单的处理过程,订单的配送信息等,该实体词“订单”在用户在向客服反映订单的问题的整个信息中出现的次数最多,与该实体词相关的内容也非常重要,因此处理模块可以将实体词“订单”的权重设置较高,而一些出现频率较低的实体词则可以相对设置其权重较低。
在本申请的一个实施例中,处理模块进一步配置为:根据体量对图聚类进行筛选,将不能达到特定体量的图聚类舍弃。具体来说,不能达到特定体量的图聚类其对整个第一数据的实际意图表达的影响非常小,可以将不能达到特定体量的图聚类舍弃,从而节省了系统资源的消耗,将优先的资源使用在其他信息处理的过程中。
在本申请的一个实施例中,处理模块进一步配置为:根据确定的第一数据的表达意图,确定当前数据的表达意图。当前数据可以是当前需要处理的目标数据,例如用户在向客服(包括人工智能客服)提问时,客服需要对提出的问题进行解答,而当前提出的一些列问题则可以被认为是当前数据,由于第一数据是具有代表性的数据,包含了当前数据的全部或大部分内容,因此,在对该当前数据进行解答时,处理模块可以根据确定的第一数据的表达意图,来确定当前数据的表达意图,从而能够对用户的提问进行准确的解答。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。

Claims (10)

1.一种信息处理方法,包括:
获取预设的第一数据,根据预设提取规定所定义的词汇权重,从所述第一数据中提取出至少一个实体词;
确定与所述实体词相关联的关联词,建立所述实体词与所述关联词之间的关联边,以构建对应于所述第一数据的共现图,其中,所述实体词、所述关联词以及所述关联边均对应有各自的权重;
基于预设聚类规定对所述共现图进行聚类操作,形成至少一个图聚类,其中所述图聚类中至少包括一个实体词及相应的关联词;
基于所述图聚类中的实体词和/或所述关联词的含义,确定所述图聚类对应的表达意图,以确定所述第一数据的表达意图。
2.根据权利要求1所述的方法,所述的基于预设聚类规定对所述共现图进行聚类操作,形成至少一个图聚类包括:
以从所述第一数据中获取达到特定权重的第一类型词汇作为节点;
将所有的所述节点进行聚类操作,并当包含所述关联边最多的所述图聚类的内部边与外部边之间的数量关系符合特定条件,则停止所述聚类操作,其中所述内部边为所述关联边最多的所述图聚类内的节点之间的关联边,所述外部边为所述关联边最多的所述图聚类内的节点与其他图聚类内的节点之间的关联边。
3.根据权利要求1所述的方法,所述的基于所述图聚类中的实体词和/或所述关联词的含义,确定所述图聚类对应的表达意图包括:
基于所述实体词、相应的所述关联词以及相应的所述关联边的权重,在所述图聚类中选定特定数量的代表词汇;
根据所述代表词汇的含义,确定所述图聚类对应的表达意图,以确定所述第一数据的表达意图。
4.根据权利要求1所述的方法,获取预设的第一数据,根据预设提取规定所定义的词汇权重,从所述第一数据中提取出至少一个实体词包括:
从第一数据中获取达到特定权重的第一类型词汇;
根据所述预设提取规定,在达到特定权重的所述第一类型词汇中选定所述实体词;
对选定的所述实体词进行的语义规范化的第一操作,以使经过第一操作后的所述实体词的语义表述达到特定标准。
5.根据权利要求1所述的方法,所述的确定与所述实体词相关联的关联词,建立所述实体词与所述关联词之间的关联边,以构建对应于所述第一数据的共现图包括:
以所述实体词为参考点,在所述第一数据所表现的第一内容中以所述参考点为基础划出特定信息区域;
在特定信息区域中选出与所述实体词相关联的所述关联词,并建立所述实体词及其对应的所述关联词之间的关联边;
根据所述实体词及其对应的所述关联词共同出现在所述特定信息区域中或者所述第一数据中的频率,确定所述关联边的权重。
6.根据权利要求1所述的方法,所述方法还包括:
根据所述实体词在所述第一数据中出现的频率确定所述实体词的权重;
根据所述关联词在所述第一数据中出现的频率确定所述关联词的权重。
7.根据权利要求1所述的方法,所述方法还包括:
根据体量对所述图聚类进行筛选,将不能达到特定体量的所述图聚类舍弃。
8.根据权利要求1所述的方法,所述方法还包括:
根据确定的所述第一数据的表达意图,确定当前数据的表达意图。
9.一种电子设备,包括:
获取模块,其配置为获取预设的第一数据,根据预设提取规定所定义的词汇权重,从所述第一数据中提取出至少一个实体词;
处理模块,其配置为确定与所述实体词相关联的关联词,建立所述实体词与所述关联词之间的关联边,以构建对应于所述第一数据的共现图,其中,所述实体词、所述关联词以及所述关联边均对应有各自的权重;
基于预设聚类规定对所述共现图进行聚类操作,形成至少一个图聚类,其中所述图聚类中至少包括一个实体词及相应的关联词;
基于所述图聚类中的实体词或所述关联词的含义,确定所述图聚类对应的表达意图,以确定所述第一数据的表达意图。
10.根据权利要求9所述的电子设备,所述处理模块进一步配置为:
以从所述第一数据中获取达到特定权重的第一类型词汇作为节点;
将所有的所述节点进行聚类操作,并当包含所述关联边最多的所述图聚类的内部边与外部边之间的数量关系符合特定条件,则停止所述聚类操作,其中所述内部边为所述关联边最多的所述图聚类内的节点之间的关联边,所述外部边为所述关联边最多的所述图聚类内的节点与其他图聚类内的节点之间的关联边。
CN201910815033.4A 2019-08-30 2019-08-30 一种信息处理方法及电子设备 Active CN110516254B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910815033.4A CN110516254B (zh) 2019-08-30 2019-08-30 一种信息处理方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910815033.4A CN110516254B (zh) 2019-08-30 2019-08-30 一种信息处理方法及电子设备

Publications (2)

Publication Number Publication Date
CN110516254A true CN110516254A (zh) 2019-11-29
CN110516254B CN110516254B (zh) 2021-07-16

Family

ID=68628503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910815033.4A Active CN110516254B (zh) 2019-08-30 2019-08-30 一种信息处理方法及电子设备

Country Status (1)

Country Link
CN (1) CN110516254B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144102A (zh) * 2019-12-26 2020-05-12 联想(北京)有限公司 用于识别语句中实体的方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615717A (zh) * 2015-02-05 2015-05-13 北京航空航天大学 社交网络突发事件的多维度评估方法
CN106326300A (zh) * 2015-07-02 2017-01-11 富士通株式会社 信息处理方法以及信息处理设备
CN106354728A (zh) * 2015-07-16 2017-01-25 富士通株式会社 利用语义图生成对象之间的关联强度的方法和设备
CN107766318A (zh) * 2016-08-17 2018-03-06 北京金山安全软件有限公司 一种关键词的抽取方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615717A (zh) * 2015-02-05 2015-05-13 北京航空航天大学 社交网络突发事件的多维度评估方法
CN106326300A (zh) * 2015-07-02 2017-01-11 富士通株式会社 信息处理方法以及信息处理设备
CN106354728A (zh) * 2015-07-16 2017-01-25 富士通株式会社 利用语义图生成对象之间的关联强度的方法和设备
CN107766318A (zh) * 2016-08-17 2018-03-06 北京金山安全软件有限公司 一种关键词的抽取方法、装置及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘锦文等: "基于信息关联拓扑的互联网社交关系挖掘", 《计算机应用》 *
李国和等: "面向机器学习的训练数据集均衡化方法", 《计算机工程与设计》 *
李莎莎: "面向搜索引擎的自然语言处理关键技术研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144102A (zh) * 2019-12-26 2020-05-12 联想(北京)有限公司 用于识别语句中实体的方法、装置和电子设备
CN111144102B (zh) * 2019-12-26 2022-05-31 联想(北京)有限公司 用于识别语句中实体的方法、装置和电子设备

Also Published As

Publication number Publication date
CN110516254B (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN105808590B (zh) 搜索引擎实现方法、搜索方法以及装置
US10817527B1 (en) Systems and methods of using natural language processing for visual analysis of a data set
US11645547B2 (en) Human-machine interactive method and device based on artificial intelligence
US11556572B2 (en) Systems and methods for coverage analysis of textual queries
CN104461525B (zh) 一种可自定义的智能咨询平台生成系统
CN110297907A (zh) 生成访谈报告的方法、计算机可读存储介质和终端设备
CN104598445B (zh) 自动问答系统和方法
CN109857860A (zh) 文本分类方法、装置、计算机设备及存储介质
CN110457466A (zh) 生成访谈报告的方法、计算机可读存储介质和终端设备
CN103377258B (zh) 用于对微博信息进行分类显示的方法和设备
CN109325132A (zh) 专家知识推荐方法、装置、计算机设备及存储介质
CN107506372A (zh) 一种机器人客服在混合类型会话下的自动会话切换方法
CN110390052A (zh) 搜索推荐方法、ctr预估模型的训练方法、装置及设备
CN105975531B (zh) 基于对话知识库的机器人对话控制方法和系统
CN106651544B (zh) 最少用户交互的会话式推荐系统
CN110532462A (zh) 一种推荐方法、装置、设备及可读存储介质
CN110297906A (zh) 生成访谈报告的方法、计算机可读存储介质和终端设备
CN110795542A (zh) 对话方法及相关装置、设备
CN109977215A (zh) 基于关联兴趣点的语句推荐方法和装置
CN109032381A (zh) 一种基于上下文的输入方法、装置、存储介质及终端
CN108228556A (zh) 关键短语提取方法及装置
CN112364234A (zh) 一种在线讨论的自动分组系统
KR20170027576A (ko) 연구 이력 매칭 기반의 연구자 추천 장치 및 방법
CN113190593A (zh) 一种基于数字人文知识图谱的搜索推荐方法
CN110580516A (zh) 一种基于智能机器人的交互方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant