CN108920452B - 一种信息处理方法及装置 - Google Patents

一种信息处理方法及装置 Download PDF

Info

Publication number
CN108920452B
CN108920452B CN201810589582.XA CN201810589582A CN108920452B CN 108920452 B CN108920452 B CN 108920452B CN 201810589582 A CN201810589582 A CN 201810589582A CN 108920452 B CN108920452 B CN 108920452B
Authority
CN
China
Prior art keywords
label
intention
acquiring
attribute
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810589582.XA
Other languages
English (en)
Other versions
CN108920452A (zh
Inventor
喻守益
邵蓥侠
张震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201810589582.XA priority Critical patent/CN108920452B/zh
Publication of CN108920452A publication Critical patent/CN108920452A/zh
Application granted granted Critical
Publication of CN108920452B publication Critical patent/CN108920452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本文公开了一种信息处理方法及装置,包括:终端根据预先建立的属性归纳模型获取与获得的关键词对应的属性;根据预先建立的属性与标签的对应关系获取与获得的属性对应的标签;根据预先建立的标签组合与意图的对应关系,利用获得的标签获取目标意图;根据获得的关键词和目标意图生成查询语句。从本发明实施例可见,由于终端根据属性归纳模型、属性与标签的对应关系以及标签与意图的对应关系获取了关键词最能够表明的意图,进而在无需大量训练集的参与,简单地实现了查询语句的生成。

Description

一种信息处理方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种信息处理方法及装置。
背景技术
在自然语言处理(Natural Language Processing,NLP)领域,由文档、段落、语句提取关键词的研究很多,但是利用关键词生成语句的研究较少。
相关技术中,利用关键词生成语句通常有两种方法:一是根据NLP工具word2vec对词汇进行相近词替换,然后在训练集中寻找包含所替换的词的语句;二是根据训练集得到词汇的上下文生成概率,生成若干备选语句,再用语言模型判断语句的通顺程度确定最终语句。
然而,这两种方法都需要依赖大量的训练集,但实际应用中,多数企业在业务开展前都难以获得该业务场景下的大量训练集,因此在缺乏大量训练集的情况下无法根据关键词生成语句。
发明内容
为了解决上述技术问题,本发明提供一种信息处理方法及装置,能够在缺乏大量训练集的情况下根据关键词生成语句。
为了达到本发明目的,本发明提供了一种信息处理方法,包括:
终端根据预先建立的属性归纳模型获取与获得的关键词对应的属性;
根据预先建立的属性与标签的对应关系获取与获得的属性对应的标签;
根据预先建立的标签组合与意图的对应关系,利用获得的标签获取目标意图;
根据获得的关键词和目标意图生成查询语句。
所述根据预先建立的标签组合与意图的对应关系,利用获得的标签获取目标意图,包括:
根据获得的标签获取能够由每一个获得的属性对应的一个标签组成的所有标签组合;
获取所有标签组合包含的标签的种类个数;
获取包含的标签的种类个数最小的标签组合作为备选标签组合;
如果所述备选标签组合的数量为一个,从所述标签与意图的对应关系中获取包含获得的备选标签组合中的标签的意图;
如果获得的意图的数量为一个,确定获得的意图为所述目标意图。
如果所述备选标签组合的数量为至少两个,还包括:
根据所述终端的搜索记录获取针对每一个备选标签组合中的标签的搜索次数;
获取标签的搜索次数最大的备选标签组合作为目标标签组合,并从所述标签与意图的对应关系中获取包含获得的目标标签组合中的标签的意图;
如果获得的意图的数量为一个,确定获得的意图为所述目标意图。
如果获得的意图的数量为至少两个,还包括:
获取每一个意图包含的标签的信息量;
获取包含的标签的信息量最大的意图作为备选意图;
如果所述备选意图的数量为一个,确定所述备选意图为所述目标意图;
如果所述备选意图的数量为两个,获取根据信息量大的标签去查找信息量小的标签的备选意图,作为所述目标意图。
所述根据获得的关键词和意图生成查询语句,包括:
根据获得的关键词和目标意图生成条件词组;
根据获得的条件词组生成标签语句;
根据获得的目标意图拼接获得的标签语句,生成所述查询语句。
所述根据获得的关键词和目标意图生成条件词组,包括:
根据获得的目标意图和所述属性归纳模型获取所述关键词对应的属性;
在预先建立的条件模板中获取包含获得的属性的条件模板;
按照获得的条件模板拼接获得的关键词和对应的属性,得到所述条件词组。
所述根据获得的条件词组生成标签语句,包括:
根据预先建立的标签模板判断是否存在与获得的条件词组对应的标签;
如果存在与获得的条件词组对应的标签,获取包含与获得的条件词组对应的标签的标签模板;
按照获得的标签模板拼接获得的条件词组和对应的标签,得到所述标签语句。
本发明实施例还提供一种终端,包括:
获取模块,用于根据预先建立的属性归纳模型获取与获得的关键词对应的属性;
所述获取模块,还用于根据预先建立的属性与标签的对应关系获取与获得的属性对应的标签;
所述获取模块,还用于根据预先建立的标签组合与意图的对应关系,利用获得的标签获取目标意图;
处理模块,用于根据获得的关键词和目标意图生成查询语句。
所述获取模块具体用于:
根据获得的标签获取能够由每一个获得的属性对应的一个标签组成的所有标签组合;
获取所有标签组合包含的标签的种类个数;
获取包含的标签的种类个数最小的标签组合作为备选标签组合;
如果所述备选标签组合的数量为一个,从所述标签与意图的对应关系中获取包含获得的备选标签组合中的标签的意图;
如果获得的意图的数量为一个,确定获得的意图为所述目标意图。
所述处理模块具体用于:
根据获得的关键词和目标意图生成条件词组;
根据获得的条件词组生成标签语句;
根据获得的目标意图拼接获得的标签语句,生成所述查询语句。
与现有技术相比,本发明至少包括:终端根据预先建立的属性归纳模型获取与获得的关键词对应的属性;根据预先建立的属性与标签的对应关系获取与获得的属性对应的标签;根据预先建立的标签组合与意图的对应关系,利用获得的标签获取目标意图;根据获得的关键词和目标意图生成查询语句。从本发明提供的技术方案可见,由于终端根据属性归纳模型、属性与标签的对应关系以及标签与意图的对应关系获取了关键词表明的意图,进而在无需大量训练集的参与,简单地实现了查询语句的生成。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例提供的一种信息处理方法的流程示意图;
图2为本发明实施例提供的一种表单式查询界面示意图;
图3为本发明实施例提供的一种信息处理方法的示意图;
图4为本发明实施例提供的一种终端的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
本发明实施例提供一种信息处理方法,如图1所示,该方法包括:
步骤101、终端根据预先建立的属性归纳模型获取与获得的关键词对应的属性。
需要说明的是,关键词可以根据用户在终端界面中输入的信息获取,不同于图2所示的表单式查询界面中,本发明实施例提供的信息处理方法可以是基于聊天界面进行的,因此不会在页面上占据较大的空间。对于用户在终端输入的信息,终端可以通过调用命名实体识别(Named Entity Recognition,NER)模型来进行关键词的提取。通常情况下关键词的数量是多个,因此根据存储的模型判断获取与获得的关键词对应的属性指的是:根据存储的模型判断获取每一个获得的关键词对应的属性。
具体的,预先建立的属性归纳模型是通过对样本进行归纳总结从而能够预测关键词所属属性的模型,可以包括字典模型、规则模型和其他模型等,其中字典模型可以包括地址字典模型(地址模型又可细分为省份字典模型和城市字典模型)、品牌字典模型等;规则模型可以包括身份证号规则模型、列车号规则模型等;其他模型可以包括酒店名模型、网吧名模型、餐厅名模型和姓名模型等。假设关键词是:“170cm”、“肥胖”、“北京”,那么通过属性归纳模型得到的与“170cm”对应的属性可以是“身高”,与“肥胖”对应的属性可以是“体型”,与“北京”对应的属性可以是“地址”和“路径”。
步骤102、根据预先建立的属性与标签的对应关系获取与获得的属性对应的标签。
具体的,属性与标签的对应关系是一个一对多的对应关系,举例来说,假设有属性1、属性2和属性3,属性1对应标签A和标签B,属性2对应标签C,属性3对应标签D和标签E,那么属性和标签的对应关系可以如表1所示,
Figure BDA0001690319410000051
Figure BDA0001690319410000061
表1
如果获得的属性是属性2和属性3,那么根据表1可知属性2对应的标签是标签C,属性3对应的标签是标签D和标签E,则最终获得的标签是标签C、标签D和标签E。
具体的,标签可以分为实体和事件,因此属性与标签的对应关系也可以分为属性与实体的对应关系,以及属性与事件的对应关系。举例来说,假设关键词是:“170cm”、“肥胖”、“北京”,与“170cm”对应的属性可以是“身高”,与“肥胖”对应的属性可以是“体型”,与“北京”对应的属性可以是“地址”和“路径”,那么根据属性与标签的对应关系可以获得与属性“身高”对应的标签是“人”,与属性“体型”对应的标签是“人”,与属性“地址”对应的标签是“人”、“车”、“网吧”以及“住宿”,与属性“路径”对应的标签是“火车”和“飞机”。并且,进一步按照标签包括的类型进行归类,可以确定“人”、“车”、“火车”和“飞机”属于实体,“网吧”和“住宿”属于事件。
步骤103、根据预先建立的标签组合与意图的对应关系,利用获得的标签获取目标意图。
具体的,意图是终端支持的查询意图,可以是通过人的属性去查找人、通过事件的属性去查找人。在查询场景下,意图的种类不多,因此可以利用该特点穷举意图并生成标签与意图的对应关系,所生成的对应关系可以如表2所示。
Figure BDA0001690319410000062
Figure BDA0001690319410000071
表2
需要说明的是,用户输入的信息反映了用户的意图,而根据用户输入的信息获取了关键词,因此根据获得的关键词可以获取用户的意图。
步骤104、根据获得的关键词和目标意图生成查询语句。
需要说明的是,一旦确定了用户意图,根据获得的关键词和所确定的用户的意图就能生成用户期望的查询语句,查询语句就是具有查询目的,携带有查询条件的语句。
本发明实施例所提供的信息处理方法,终端根据预先建立的属性归纳模型获取与获得的关键词对应的属性;根据预先建立的属性与标签的对应关系获取与获得的属性对应的标签;根据预先建立的标签组合与意图的对应关系,利用获得的标签获取目标意图;根据获得的关键词和目标意图生成查询语句。从本发明提供的技术方案可见,由于终端根据属性归纳模型、属性与标签的对应关系以及标签与意图的对应关系获取了关键词表明的意图,进而在无需大量训练集的参与,简单地实现了查询语句的生成。
可选地,步骤103可以通过步骤103a、103b实现:
步骤103a、根据获得的标签获取能够由每一个获得的属性对应的一个标签组成的所有标签组合。
具体的,假设关键字是:“170cm”、“肥胖”、“北京”;获得的属性分别为:“身高”、“体型”和“地址”;与属性“身高”对应的标签是“人”,与属性“体型”对应的标签是“人”,与属性“地址”对应的标签是“人”、“车”、“网吧”以及“住宿”,与属性“路径”对应的标签是“火车”和“飞机”,那么获得的能够由每一个获得的属性对应的一个标签组成的所有标签组合为:{“人”、“人”、“人”},{“人”、“人”、“车”},{“人”、“人”、“网吧”},{“人”、“人”、“住宿”},{“人”、“人”、“火车”},{“人”、“人”、“飞机”}。
步骤103b、获取所有标签组合包含的标签的种类个数。
具体的,假设获得的所有组合为:{“人”、“人”、“人”},{“人”、“人”、“车”},{“人”、“人”、“网吧”},{“人”、“人”、“住宿”},{“人”、“人”、“火车”},{“人”、“人”、“飞机”},那么可以得到组合:{“人”、“人”、“人”}包含的标签的种类个数为1个,组合:{“人”、“人”、“车”}包含的标签的种类个数为2个,组合:{“人”、“人”、“网吧”}包含的标签的种类个数为2个,组合:{“人”、“人”、“住宿”}包含的标签的种类个数为2个,组合:{“人”、“人”、“火车”}包含的标签的种类个数为2个,组合:{“人”、“人”、“飞机”}包含的标签的种类个数为2个。
步骤103c、获取包含的标签的种类个数最小的标签组合作为备选标签组合。
步骤103d、如果备选标签组合的数量为一个,从标签与意图的对应关系中获取包含获得的备选标签组合中的标签的意图。
步骤103e、如果获得的意图的数量为一个,确定获得的意图为目标意图。
可选地,如果备选标签组合的数量为至少两个,还包括:
步骤103f、根据终端的搜索记录获取针对每一个备选标签组合中的标签的搜索次数。
步骤103g、获取标签的搜索次数最大的备选标签组合作为目标标签组合,并从标签与意图的对应关系中获取包含获得的目标标签组合中的标签的意图。
步骤103h、如果获得的意图的数量为一个,确定获得的意图为目标意图。
需要说明的是,步骤103d、103e和步骤103f、103g、103h属于选择执行的关系,如果备选标签组合的数量为一个,执行步骤103d、103e,如果备选标签组合的数量为至少两个,执行步骤103f、103g、103h。
可选地,如果获得的意图的数量为至少两个,还包括:
步骤103i、获取每一个意图包含的标签的信息量。
步骤103j、获取包含的标签的信息量最大的意图作为备选意图。
步骤103k、如果备选意图的数量为一个,确定备选意图为目标意图。
步骤103l、如果备选意图的数量为两个,获取根据信息量大的标签去查找信息量小的标签的备选意图,作为目标意图。
可选地,步骤104可以通过步骤104a~104c实现:
步骤104a、根据获得的关键词和目标意图生成条件词组。
具体的,步骤104a通过步骤104a1~104a3实现:
步骤104a1、根据获得的目标意图和属性归纳模型获取关键词对应的属性。
步骤104a2、在预先建立的条件模板中获取包含获得的属性的条件模板。
步骤104a3、按照获得的条件模板拼接获得的关键词和对应的属性,得到条件词组。
具体的,条件模板是用以解决如何用关键词描述某个条件的模板,不同类型的条件词组具有不同的表述方法,如名词短语可以用:“{属性名称}{条件值}”表述,路径可以用“从{地址1}到{地址2}”表述,如表3所示。
Figure BDA0001690319410000091
表3
需要说明的是,出发条件在动词前做状语,到达条件在动词后做补语
还需要说明的是,是否需要宾语取决于动词类型,及物动词带宾语,不及物动词不带宾语
步骤104b、根据获得的条件词组生成标签语句。
具体的,步骤104b可以通过步骤104b1~104b3实现:
步骤104b1、根据预先建立的标签模板判断是否存在与获得的条件词组对应的标签。
步骤104b2、如果存在与获得的条件词组对应的标签,获取包含与获得的条件词组对应的标签的标签模板。
步骤104b3、按照获得的标签模板拼接获得的条件词组和对应的标签,得到标签语句。
具体的,标签可以分为实体和事件,那么标签模板可以分为实体模块和事件模板,实体/事件模板用以解决从条件短语生成实体或事件的短句。实体模板中的核心问题是条件的排列顺序,事件模板中的核心问题是事件的状语补语结构,以下分别描述。
首先是实体模板。实体的描述由定语(条件)和中心词(实体)构成。从中文定语的类型上看,主要包括形容词,此外还有名词、名词短语、动词短语、介词短语、定语从句等,表4为修饰人的定语类型,如表4所示。从定语的表现形式上看,分为必须有“的”,不能有“的”,可以有“的”三种类型。如果定语的字数较长而且后续还有带“的”定语,也可以用逗号隔开,如“查找手机号13012345678,体型偏瘦的人”。
Figure BDA0001690319410000101
表4
需要说明的是,除表中所列类型之外,数量词、代词、动词等也可以作为定语。除此之外,修饰名词的定语可以有多个,按照一定的顺序排列。一般情况下,遵循几个条件:
条件1、带“的”定语放在不带“的”定语之前。
条件2、结构复杂的定语放在结构简单的定语之前。
条件3、离名词的关系远的定语放在关系较近的定语之前。
条件4、动词短语放在形容词短语之前。
虽然中文定语的种类多样,但在本发明实施例所描述的场景下,大体只有名词短语、形容词、名词三种类型(按表述顺序)。另外年龄、身高、体型等属性不是只有名词短语一种表达方式,也可直接使用形容词作定语,如:(体型苗条)的人,也可以直接表述成(苗条)的人。而性别当表述成“男性”、“女性”时,本身可以代替主体“人”的子类。因此,当性别是最后一个定语时,不需要再添加主体“人”,例如“身高170cm的男性”。表5展示通过人的属性查询,用名词/形容词类作为定语的情况。
Figure BDA0001690319410000111
表5
需要说明的是,相同属性可以有不同的表述方法,如名词短语“身材高大的”也可以表述成形容词“高大的”。性别可以作为名词性定语,也可以直接作为主体
还需要说明的是,由于形容词可以用名词短语代替,因此可以将模板的分为三类,如表6所示。另外当句子缺乏主体,则主体用名称代替。当某个名词短语的字数较长,而且后面还有其他名词短语时,中间加逗号隔开。
Figure BDA0001690319410000121
表6
其次是事件模板,描述事件必须包含状语(时间、地点、路径等)、动宾短语(有时无宾语)、补语,其中动词与支持查询的事件类型有关,宾语也较为固定(如购物事件中宾语为商品品类,开车事件是宾语为车主体,上网事件无宾语)。例如“上个月从北京搭乘CA2102航班到上海的人”中,“上个月”为时间状语,“从北京”为路径状语,“搭乘CA2102航班”为动宾短语,“到上海”为补语;又如“上周在西单商场购买大衣的人”中,“西单商场”则用地点当状语。表7分别展示路径类、地点类的事件描述模板。
Figure BDA0001690319410000122
表7
步骤104c、根据获得的目标意图拼接获得的标签语句,生成查询语句。
下面提供一个具体场景以说明本发明实施例提供的句子生成方法,如图3所示,假设关键词为“张三、170cm、高中、上海、如家”,首先根据这些关键词确定用户的意图为根据事件查找人,那么接下来生成条件词组,其中又可分为属性条件词组和地址条件词组,属性条件词组分别是:姓名张三、身高170cm、学历高中,地址条件词组分别为:上海、如家,然后再生成实体/事件语句,其中实体语句为:姓名张三、身高170cm、学历高中的人,事件语句为:在上海如家住宿,最后生成查询语句,查询语句为:查找在上海如家住宿,姓名张三,身高170cm,学历高中的人。
本发明实施例还提供一种终端,如图4所示,该终端2包括:
获取模块21,用于根据预先建立的属性归纳模型获取与获得的关键词对应的属性;
获取模块21,还用于根据预先建立的属性与标签的对应关系获取与获得的属性对应的标签;
获取模块21,还用于根据预先建立的标签组合与意图的对应关系,利用获得的标签获取目标意图;
处理模块22,用于根据获得的关键词和目标意图生成查询语句。
可选地,获取模块21具体用于:
根据获得的标签获取能够由每一个获得的属性对应的一个标签组成的所有标签组合。
获取所有标签组合包含的标签的种类个数。
获取包含的标签的种类个数最小的标签组合作为备选标签组合。
如果备选标签组合的数量为一个,从标签与意图的对应关系中获取包含获得的备选标签组合中的标签的意图。
如果获得的意图的数量为一个,确定获得的意图为目标意图。
可选地,如果备选标签组合的数量为至少两个,获取模块21具体还用于:
根据终端的搜索记录获取针对每一个备选标签组合中的标签的搜索次数。
获取标签的搜索次数最大的备选标签组合作为目标标签组合,并从标签与意图的对应关系中获取包含获得的目标标签组合中的标签的意图。
如果获得的意图的数量为一个,确定获得的意图为目标意图。
可选地,如果获得的意图的数量为至少两个,获取模块21具体还用于:
获取每一个意图包含的标签的信息量;
获取包含的标签的信息量最大的意图作为备选意图。
如果备选意图的数量为一个,确定备选意图为目标意图。
如果备选意图的数量为两个,获取根据信息量大的标签去查找信息量小的标签的备选意图,作为目标意图。
可选地,处理模块22具体用于:
根据获得的关键词和目标意图生成条件词组。
根据获得的条件词组生成标签语句。
根据获得的目标意图拼接获得的标签语句,生成查询语句。
可选地,处理模块22具体还用于:
根据用户的意图、存储的预设模型获取关键词对应的属性。
根据获得的目标意图和属性归纳模型获取关键词对应的属性。
在预先建立的条件模板中获取包含获得的属性的条件模板。
按照获得的条件模板拼接获得的关键词和对应的属性,得到条件词组。
可选地,处理模块22具体还用于:
根据预先建立的标签模板判断是否存在与获得的条件词组对应的标签。
如果存在与获得的条件词组对应的标签,获取包含与获得的条件词组对应的标签的标签模板。
按照获得的标签模板拼接获得的条件词组和对应的标签,得到标签语句。
本发明实施例所提供的终端,根据预先建立的属性归纳模型获取与获得的关键词对应的属性;根据预先建立的属性与标签的对应关系获取与获得的属性对应的标签;根据预先建立的标签组合与意图的对应关系,利用获得的标签获取目标意图;根据获得的关键词和目标意图生成查询语句。从本发明提供的技术方案可见,由于终端根据属性归纳模型、属性与标签的对应关系以及标签与意图的对应关系获取了关键词表明的意图,进而在无需大量训练集的参与,简单地实现了查询语句的生成。
在实际应用中,获取模块21和处理模块22均可由位于终端中的中央处理器(Central Processing Unit,CPU)、微处理器(Micro Processor Unit,MPU)、数字信号处理器(Digital Signal Processor,DSP)或现场可编程门阵列(Field Programmable GateArray,FPGA)等实现。
本发明实施例还提供一种用于实现信息处理的装置,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:
根据预先建立的属性归纳模型获取与获得的关键词对应的属性。
根据预先建立的属性与标签的对应关系获取与获得的属性对应的标签。
根据预先建立的标签组合与意图的对应关系,利用获得的标签获取目标意图。
根据获得的关键词和目标意图生成查询语句。
进一步,存储器中具体存储有以下可被处理器执行的指令:
根据获得的标签获取能够由每一个获得的属性对应的一个标签组成的所有标签组合。
获取所有标签组合包含的标签的种类个数。
获取包含的标签的种类个数最小的标签组合作为备选标签组合。
如果备选标签组合的数量为一个,从标签与意图的对应关系中获取包含获得的备选标签组合中的标签的意图。
如果获得的意图的数量为一个,确定获得的意图为目标意图。
进一步,如果备选标签组合的数量为至少两个,存储器中还具体存储有以下可被处理器执行的指令:
根据终端的搜索记录获取针对每一个备选标签组合中的标签的搜索次数。
获取标签的搜索次数最大的备选标签组合作为目标标签组合,并从标签与意图的对应关系中获取包含获得的目标标签组合中的标签的意图。
如果获得的意图的数量为一个,确定获得的意图为目标意图。
进一步,如果获得的意图的数量为至少两个,存储器中还具体存储有以下可被处理器执行的指令:
获取每一个意图包含的标签的信息量。
获取包含的标签的信息量最大的意图作为备选意图。
如果备选意图的数量为一个,确定备选意图为目标意图。
如果备选意图的数量为两个,获取根据信息量大的标签去查找信息量小的标签的备选意图,作为目标意图。
进一步,存储器中还具体存储有以下可被处理器执行的指令:
根据获得的关键词和目标意图生成条件词组。
根据获得的条件词组生成标签语句。
根据获得的目标意图拼接获得的标签语句,生成查询语句。
进一步,存储器中还具体存储有以下可被处理器执行的指令:
根据获得的目标意图和属性归纳模型获取关键词对应的属性。
在预先建立的条件模板中获取包含获得的属性的条件模板。
按照获得的条件模板拼接获得的关键词和对应的属性,得到条件词组。
进一步,存储器中还具体存储有以下可被处理器执行的指令:
根据预先建立的标签模板判断是否存在与获得的条件词组对应的标签。
如果存在与获得的条件词组对应的标签,获取包含与获得的条件词组对应的标签的标签模板。
按照获得的标签模板拼接获得的条件词组和对应的标签,得到标签语句。
本发明实施例还提供一种计算机可读存储介质,存储介质上存储有计算机可执行指令,计算机可执行指令用于执行以下步骤:
根据预先建立的属性归纳模型获取与获得的关键词对应的属性。
根据预先建立的属性与标签的对应关系获取与获得的属性对应的标签。
根据预先建立的标签组合与意图的对应关系,利用获得的标签获取目标意图。
根据获得的关键词和目标意图生成查询语句。
可选地,计算机可执行指令具体用于执行以下步骤:
根据获得的标签获取能够由每一个获得的属性对应的一个标签组成的所有标签组合。
获取所有标签组合包含的标签的种类个数。
获取包含的标签的种类个数最小的标签组合作为备选标签组合。
如果备选标签组合的数量为一个,从标签与意图的对应关系中获取包含获得的备选标签组合中的标签的意图。
如果获得的意图的数量为一个,确定获得的意图为目标意图。
可选地,如果备选标签组合的数量为至少两个,计算机可执行指令还具体用于执行以下步骤:
根据终端的搜索记录获取针对每一个备选标签组合中的标签的搜索次数。
获取标签的搜索次数最大的备选标签组合作为目标标签组合,并从标签与意图的对应关系中获取包含获得的目标标签组合中的标签的意图。
如果获得的意图的数量为一个,确定获得的意图为目标意图。
可选地,如果获得的意图的数量为至少两个,计算机可执行指令还具体用于执行以下步骤:
获取每一个意图包含的标签的信息量。
获取包含的标签的信息量最大的意图作为备选意图。
如果备选意图的数量为一个,确定备选意图为目标意图。
如果备选意图的数量为两个,获取根据信息量大的标签去查找信息量小的标签的备选意图,作为目标意图。
可选地,计算机可执行指令还具体用于执行以下步骤:
根据获得的关键词和目标意图生成条件词组。
根据获得的条件词组生成标签语句。
根据获得的目标意图拼接获得的标签语句,生成查询语句。
可选地,计算机可执行指令还具体用于执行以下步骤:
根据获得的目标意图和属性归纳模型获取关键词对应的属性。
在预先建立的条件模板中获取包含获得的属性的条件模板。
按照获得的条件模板拼接获得的关键词和对应的属性,得到条件词组。
可选地,计算机可执行指令还具体用于执行以下步骤:
根据预先建立的标签模板判断是否存在与获得的条件词组对应的标签。
如果存在与获得的条件词组对应的标签,获取包含与获得的条件词组对应的标签的标签模板。
按照获得的标签模板拼接获得的条件词组和对应的标签,得到标签语句。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (8)

1.一种信息处理方法,其特征在于,包括:
终端根据预先建立的属性归纳模型获取与获得的关键词对应的属性;
根据预先建立的属性与标签的对应关系获取与获得的属性对应的标签;
根据预先建立的标签组合与意图的对应关系,利用获得的标签获取目标意图;
根据获得的关键词和目标意图生成查询语句;
所述根据预先建立的标签组合与意图的对应关系,利用获得的标签获取目标意图,包括:
根据获得的标签获取能够由每一个获得的属性对应的一个标签组成的所有标签组合;
获取所有标签组合包含的标签的种类个数;
获取包含的标签的种类个数最小的标签组合作为备选标签组合;
如果所述备选标签组合的数量为一个,从所述标签组合与意图的对应关系中获取包含获得的备选标签组合中的标签的意图;
如果获得的意图的数量为一个,确定获得的意图为所述目标意图。
2.根据权利要求1所述的信息处理方法,其特征在于,如果所述备选标签组合的数量为至少两个,还包括:
根据所述终端的搜索记录获取针对每一个备选标签组合中的标签的搜索次数;
获取标签的搜索次数最大的备选标签组合作为目标标签组合,并从所述标签组合与意图的对应关系中获取包含获得的目标标签组合中的标签的意图;
如果获得的意图的数量为一个,确定获得的意图为所述目标意图。
3.根据权利要求2所述的信息处理方法,其特征在于,如果获得的意图的数量为至少两个,还包括:
获取每一个意图包含的标签的信息量;
获取包含的标签的信息量最大的意图作为备选意图;
如果所述备选意图的数量为一个,确定所述备选意图为所述目标意图;
如果所述备选意图的数量为两个,获取根据信息量大的标签去查找信息量小的标签的备选意图,作为所述目标意图。
4.根据权利要求1所述的信息处理方法,其特征在于,所述根据获得的关键词和意图生成查询语句,包括:
根据获得的关键词和目标意图生成条件词组;
根据获得的条件词组生成标签语句;
根据获得的目标意图拼接获得的标签语句,生成所述查询语句。
5.根据权利要求4所述的信息处理方法,其特征在于,所述根据获得的关键词和目标意图生成条件词组,包括:
根据获得的目标意图和所述属性归纳模型获取所述关键词对应的属性;
在预先建立的条件模板中获取包含获得的属性的条件模板;
按照获得的条件模板拼接获得的关键词和对应的属性,得到所述条件词组。
6.根据权利要求4所述的信息处理方法,其特征在于,所述根据获得的条件词组生成标签语句,包括:
根据预先建立的标签模板判断是否存在与获得的条件词组对应的标签;
如果存在与获得的条件词组对应的标签,获取包含与获得的条件词组对应的标签的标签模板;
按照获得的标签模板拼接获得的条件词组和对应的标签,得到所述标签语句。
7.一种终端,其特征在于,包括:
获取模块,用于根据预先建立的属性归纳模型获取与获得的关键词对应的属性;
所述获取模块,还用于根据预先建立的属性与标签的对应关系获取与获得的属性对应的标签;
所述获取模块,还用于根据预先建立的标签组合与意图的对应关系,利用获得的标签获取目标意图;
处理模块,用于根据获得的关键词和目标意图生成查询语句;
所述获取模块具体用于:
根据获得的标签获取能够由每一个获得的属性对应的一个标签组成的所有标签组合;
获取所有标签组合包含的标签的种类个数;
获取包含的标签的种类个数最小的标签组合作为备选标签组合;
如果所述备选标签组合的数量为一个,从所述标签组合与意图的对应关系中获取包含获得的备选标签组合中的标签的意图;
如果获得的意图的数量为一个,确定获得的意图为所述目标意图。
8.根据权利要求7所述的终端,其特征在于,所述处理模块具体用于:
根据获得的关键词和目标意图生成条件词组;
根据获得的条件词组生成标签语句;
根据获得的目标意图拼接获得的标签语句,生成所述查询语句。
CN201810589582.XA 2018-06-08 2018-06-08 一种信息处理方法及装置 Active CN108920452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810589582.XA CN108920452B (zh) 2018-06-08 2018-06-08 一种信息处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810589582.XA CN108920452B (zh) 2018-06-08 2018-06-08 一种信息处理方法及装置

Publications (2)

Publication Number Publication Date
CN108920452A CN108920452A (zh) 2018-11-30
CN108920452B true CN108920452B (zh) 2022-05-17

Family

ID=64418650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810589582.XA Active CN108920452B (zh) 2018-06-08 2018-06-08 一种信息处理方法及装置

Country Status (1)

Country Link
CN (1) CN108920452B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580334A (zh) * 2019-09-11 2019-12-17 北京明略软件系统有限公司 目标表模板的上传方法及装置、存储介质、电子装置
CN112084403B (zh) * 2020-08-26 2024-06-14 深圳市华曦达科技股份有限公司 数据查询方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701254A (zh) * 2016-03-09 2016-06-22 北京搜狗科技发展有限公司 一种信息处理方法和装置、一种用于信息处理的装置
US20170024431A1 (en) * 2015-07-24 2017-01-26 International Business Machines Corporation Generating and executing query language statements from natural language
CN106934069A (zh) * 2017-04-24 2017-07-07 中国工商银行股份有限公司 数据检索方法及系统
CN107145512A (zh) * 2017-03-31 2017-09-08 北京大学 数据查询的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170024431A1 (en) * 2015-07-24 2017-01-26 International Business Machines Corporation Generating and executing query language statements from natural language
CN105701254A (zh) * 2016-03-09 2016-06-22 北京搜狗科技发展有限公司 一种信息处理方法和装置、一种用于信息处理的装置
CN107145512A (zh) * 2017-03-31 2017-09-08 北京大学 数据查询的方法和装置
CN106934069A (zh) * 2017-04-24 2017-07-07 中国工商银行股份有限公司 数据检索方法及系统

Also Published As

Publication number Publication date
CN108920452A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
US11403288B2 (en) Querying a data graph using natural language queries
US11675977B2 (en) Intelligent system that dynamically improves its knowledge and code-base for natural language understanding
Nothman et al. Learning multilingual named entity recognition from Wikipedia
US9164983B2 (en) Broad-coverage normalization system for social media language
US20130159277A1 (en) Target based indexing of micro-blog content
CN110909122B (zh) 一种信息处理方法及相关设备
CN105095195A (zh) 基于知识图谱的人机问答方法和系统
CN102214189B (zh) 基于数据挖掘获取词用法知识的系统及方法
US11227183B1 (en) Section segmentation based information retrieval with entity expansion
Abdurakhmonova et al. Linguistic functionality of Uzbek Electron Corpus: uzbekcorpus. uz
CN116541493A (zh) 基于意图识别的交互应答方法、装置、设备、存储介质
CN108920452B (zh) 一种信息处理方法及装置
Cristianini et al. Large-scale content analysis of historical newspapers in the town of Gorizia 1873–1914
Attia et al. An automatically built named entity lexicon for Arabic
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
JP6095487B2 (ja) 質問応答装置、及び質問応答方法
CN113590768B (zh) 一种文本关联度模型的训练方法及装置、问答方法及装置
Banerjee et al. Named entity recognition on code-mixed cross-script social media content
Tongtep et al. Pattern-based extraction of named entities in thai news documents
KR101379935B1 (ko) 메시지 정보 추출 시스템 및 그 방법
CN114661852A (zh) 文本搜索方法、终端、可读存储介质
CN113688628B (zh) 文本识别方法、电子设备和计算机可读存储介质
Nilsson Hybrid methods for coreference resolution in Swedish
Salam et al. Improve example-based machine translation quality for low-resource language using ontology
Naz et al. A hybrid approach for NER system for scarce resourced language-URDU: Integrating n-gram with rules and gazetteers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant