CN107301227A - 基于人工智能的搜索信息解析方法及装置 - Google Patents

基于人工智能的搜索信息解析方法及装置 Download PDF

Info

Publication number
CN107301227A
CN107301227A CN201710475689.7A CN201710475689A CN107301227A CN 107301227 A CN107301227 A CN 107301227A CN 201710475689 A CN201710475689 A CN 201710475689A CN 107301227 A CN107301227 A CN 107301227A
Authority
CN
China
Prior art keywords
dictionary
target
search information
template
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710475689.7A
Other languages
English (en)
Inventor
刘琼琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710475689.7A priority Critical patent/CN107301227A/zh
Publication of CN107301227A publication Critical patent/CN107301227A/zh
Priority to US15/875,453 priority patent/US10657325B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种基于人工智能的搜索信息解析方法及装置,其中,方法包括:获取标注数据,对所述标注数据进行训练,生成实例词典、模板词典和倒排词典,获取待识别的目标搜索信息,基于所述实例词典、所述模板词典以及所述倒排词典,对所述目标搜索信息进行解析,得到与所述目标搜索信息对应的目标解析结果。通过获取标注数据,然后离线过程中对标注数据进行训练分析,形成可以用于对query解析的实例词典、模板词典以及倒排词典。在对query进行解析的过程中,只需要将三种词典作为依据,就可以自动完成对query的解析,不再依赖专业人员的经验,而且通过三种词典对query的解析是整体解析,不会存在信息丢失的问题。

Description

基于人工智能的搜索信息解析方法及装置
技术领域
本发明涉及信息处理领域,尤其涉及一种基于人工智能的搜索信息解析方法及装置。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。
现有的搜索信息(query)理解过程,需要有相关技术背景的专业人员参与,才能实现对query的解析,例如,专业人员进行人工编辑的解析模板,然后利用编辑的解析模板对query进行解析。再例如,人工或者机器识别query中部分片段,然后基于识别的部分片段对query进行解析,再例如,可以采用形式化语言对query进行解析,但是不管片段解析还是形式化语音均存在丢失信息的问题,而且上述方法需要专业人员参与,需要耗费大量人力和时间。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于人工智能的搜索信息解析方法,以实现对query的自动识别以解决现有技术中query识别中存在依赖专业人员且耗时长、成本高的问题。
本发明的第二个目的在于提出一种基于人工智能的搜索信息解析装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种计算机程序产品。
本发明的第五个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种基于人工智能的搜索信息解析方法,包括:
获取标注数据,其中,所述标注数据包括标注的搜索实例、标注的模板实例、搜索意图的领域以及所述领域下的类别,以及所述领域下关键词对应的属性以及所述属性包括的实体词;
对所述标注数据进行训练,生成实例词典、模板词典和倒排词典,其中,所述实例词典包括所述搜索实例以及所述搜索实例的标注;所述模板词典包括属性、领域和/或类别的组合;所述倒排词典包括分词与已标注的搜索实体的对应关系;
获取待识别的目标搜索信息;
基于所述实例词典、所述模板词典以及所述倒排词典,对所述目标搜索信息进行解析,得到与所述目标搜索信息对应的目标解析结果。
本发明实施例的基于人工智能的搜索信息解析方法,通过获取标注数据,然后离线过程中对标注数据进行训练分析,形成可以用于对query解析的实例词典、模板词典以及倒排词典。在对query进行解析的过程中,只需要将三种词典作为依据,就可以自动完成对query的解析,不再依赖专业人员的经验,而且通过三种词典对query的解析是整体解析,不会存在信息丢失的问题。由于三种词典都可以给出query的一个解析结果可以利用三个词典逐个对query进行解析,以获取到query的解析结果,从而能够提高识别出query的概率。
为达上述目的,本发明第二方面实施例提出了一种基于人工智能的搜索信息解析装置,包括:
第一获取模块,用于获取标注数据,其中,所述标注数据包括标注的搜索实例、标注的模板实例、搜索意图的领域以及所述领域下的类别,以及词语的属性以及各属性包括的实体词语;
词典生成模块,用于对所述标注数据进行训练,生成实例词典、模板词典和倒排词典,其中,所述实例词典包括所述搜索实例以及所述搜索实例的标注;所述模板词典包括属性、领域和/或类别的组合;所述倒排词典包括分词与已标注的搜索实体的对应关系;
第二获取模块,用于获取待识别的目标搜索信息;
解析模块,用于基于所述实例词典、所述模板词典以及所述倒排词典,对所述目标搜索信息进行解析,得到与所述目标搜索信息对应的目标解析结果。
本发明实施例的基于人工智能的搜索信息解析装置,通过获取标注数据,然后离线过程中对标注数据进行训练分析,形成可以用于对query解析的实例词典、模板词典以及倒排词典。在对query进行解析的过程中,只需要将三种词典作为依据,就可以自动完成对query的解析,不再依赖专业人员的经验,而且通过三种词典对query的解析是整体解析,不会存在信息丢失的问题。由于三种词典都可以给出query的一个解析结果可以利用三个词典逐个对query进行解析,以获取到query的解析结果,从而能够提高识别出query的概率。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括:存储器和处理器其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如本发明实施例第一方面所述的基于人工智能的搜索信息解析方法。
为达上述目的,本发明第四方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行如第一方面实施例所述的基于人工智能的搜索信息解析方法。
为达上述目的,本发明第五方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,当计算机程序被处理器执行时实现如第一方面实施例所述的基于人工智能的搜索信息解析方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的一种基于人工智能的搜索信息解析方法的流程示意图;
图2为本发明实施例提供的一种对标注数据进行训练,生成实例词典、模板词典和倒排词典的流程示意图;
图3为本发明实施例提供的一种模板数据形成的示意图;
图4为本发明实施例提供的另一种基于人工智能的搜索信息解析方法的流程示意图;
图5为本发明实施例提供的一种基于倒排词典对query解析的过程示意图;
图6为本发明实施例提供的一种相似度计算模型的构建示意图;
图7为本发明实施例提供的一种基于倒排词典对query解析的应用示意图;
图8为本发明实施例提供的一种基于人工智能的搜索信息解析方法的应用示意图;
图9为本发明实施例提供的基于人工智能的搜索信息解析方法的测试结果意图;
图10为本发明实施例提供的一种基于人工智能的搜索信息解析装置的结构示意图;
图11为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于人工智能的搜索信息解析方法及装置。
图1为本发明实施例提供的基于人工智能的搜索信息解析方法的流程示意图。
如图1所示,该基于人工智能的搜索信息解析方法包括以下步骤:
S101,获取标注数据。
其中,所述标注数据包括标注的搜索实例、标注的模板实例、搜索意图的领域以及所述领域下的类别,以及词语的属性以及各属性包括的实体词语。
本实施例中,用户可以按照搜索意图对事物进行领域划分,划分完成之后,可以对搜索意图所属的领域进行标注。一般情况下,不同的领域有可以包括多个类别,用户还可以对各个类别进行标注。例如,搜索意图的领域可以包括:天气、美食、电影等。美食下面可以包括多个类别:鲁菜、川菜、粤菜等菜系、火锅、烧烤以及自助等各种形式。天气可以包括多个类别:阴天、多云、晴天、雨雪等各种天气状况。在查询天气时,用户一般情况下会查询某个地点某个时间点天气情况,因此可以将地点和时间作为一个词语的属性,并且可以对每个属性设置一些实体词。例如,可以为地点(loc)这一属性标注“北京”、“上海”、“深圳”“天津”等实体词语。时间(time)这一属性标注“今天”“明天”等实体词语。
本实施例中,用户可以分析一个搜索实例然后标注该搜索实例对应的搜索意图所属的领域以及涉及的各个词语的属性等。以“北京今天天气”作为一个搜索实例,对该搜索实例进行标注后,可以得到一条标注数据“北京今天天气WEATHERINFO sys_loc:北京sys_time:今天”,再例如,以“今天下雨吗”作为一个搜索实例,对该搜索实例进行标注后,可以得到一条标注数据“今天下雨吗SYS_RAIN sys_time:今天”。
本实施例中,用户可以构建一些模板实例,可以对模块实例进行标注,例如,可以将“某地某时下雨吗”作为一个模板实例,从中可以得知某地的属性为loc属性,某时为time属性,下雨为天气领域下的一个类别,进而可以对该模板实例进行标识,形成一个标注数据,“[D:sys_loc][D:sys_time]下雨吗SYS_RAIN”。此处需要说明的是,用户可以根据自身的需求设置一个模板实例进行标注,例如还可以标注一个模板实例为“[D:sys_loc][D:sys_time]天气WEATHERINFO”,此处仅为示例,不能作为限制本发明的条件。另外,需要说明的是,还可以根据标注的搜索实例,自动生成模板,相关介绍在后续实施例中进行介绍,此处不再赘述。
经过上述处理之后,可以得到标注数据,在标注数据中包括标注的搜索实例以已标注的模板实例、搜索意图的领域以及所述领域下的类别,以及词语的属性以及各属性包括的实体词语。
以天气查询这一使用场景为例,获取到下面的标注数据:
Schema
Intent:WEATHERINFO|SYS_RAIN
Slots:sys_loc=北京|上海……
sys_time=今天|明天
标注实例
北京今天天气WEATHERINFO sys_loc:北京sys_time:今天
今天下雨吗SYS_RAIN sys_time:今天
[D:sys_loc][D:sys_time]下雨吗SYS_RAIN
需要说明的是,WEATHERINFO用于表示领域,SYS_RAIN为一个该领域下的一个类别,sys_loc以及sys_time为词语的属性,北京|上海……为sys_loc属性下的实体词,今天|明天为sys_time属性下的实体词。其中,“北京今天天气WEATHERINFO sys_loc:北京sys_time:今天”以及“今天下雨吗SYS_RAIN sys_time:今天”为标注的搜索实例,“[D:sys_loc][D:sys_time]下雨吗SYS_RAIN”为标注的模板实例。
需要说明的是,上述标注数据仅为示例不能作为限制本发明的条件。
S102、对标注数据进行训练,生成实例词典、模板词典和倒排词典。
其中,实例词典包括所述搜索实例以及所述搜索实例的标注;所述模板词典包括属性、领域和/或类别的组合;所述倒排词典包括分词与已标注的搜索实体的对应关系。
在获取到标注数据后,可以对标注数据进行训练,该训练的过程可以离线进行,以节省资源。在训练过程中可以从标注数据中提取出已标注的搜索实例,可以利用已标注的搜索实例生成实例词典,进一步地,还可以从标注数据中提取出已标注的模板实例,可以根据已标注的模板实例生成模板词典。进一步地,可以将已标注的搜索实例和模板实例进行结合,基于分词倒排索引技术,形成一个倒排词典。
S103、获取待识别的目标搜索信息。
用户根据自己的意图进行搜索,可以在搜索引擎、浏览器、网页或者应用程序中输入一个新的query,该新的query就是待识别的目标query。
S104、基于实例词典、模板词典以及倒排词典,对目标搜索信息进行解析识别,得到与目标搜索信息对应的目标解析结果。
具体地,可以为实例词典、模板词典以及倒排词典设置一个优先级,可以根据设置的优先级逐个词典进行匹配,得到目标query的目标解析结果。优选地,可以按照三个词典的解析精度设置优先级,解析精度越高词典的优先级也越高。例如,实例词典在三个词典中解析精度最高,此处可以实例词典的优先级设置成最高级别。
在对目标query解析的过程中,按照为三个词典设置的优先级,依次使用其中一个目标词典对目标query进行解析,当根据目标词典获取到目标解析结果时,停止利用下一词典对目标query进行解析。例如,三个词典的优先级设置为“实例词典”>“模板词典”>“倒排词典”,首先利用实例词典对目标query进行解析,如果能够获取到目标解析结果,停止利用模板词典对目标query进行解析。如果从实例词典中未获取到目标解析结果,还需要继续利用模板词典对目标query进行解析,如果能够获取到目标解析结果,停止利用倒排词典对目标query进行解析。如果从模板词典中未获取到目标解析结果,还需要继续利用倒排词典对目标query进行解析。
本发明实施例的基于人工智能的搜索信息解析方法,通过获取标注数据,然后离线过程中对标注数据进行训练分析,形成可以用于对query解析的实例词典、模板词典以及倒排词典。在对query进行解析的过程中,只需要将三种词典作为依据,就可以自动完成对query的解析,不再依赖专业人员的经验,而且通过三种词典对query的解析是整体解析,不会存在信息丢失的问题。由于三种词典都可以给出query的一个解析结果可以利用三个词典逐个对query进行解析,以获取到query的解析结果,从而能够提高识别出query的概率。
为了更加清楚地说明上述实施例提供的基于人工智能的搜索信息解析方法,图2为本实施例提供另一种对所述标注数据进行训练,生成实例词典、模板词典和倒排词典的流程示意图。如图2所示,该对标注数据进行训练,生成实例词典、模板词典和倒排词典包括以下步骤:
S201、从标注数据提取已标注的搜索实例作为实例数据。
在获取到标注数据后,可以在离线训练的过程中,可以对标注数据的实质内容进行分析,从中可以识别出已标注的搜索实例,将已标注的搜索实例作为实例数据。基于上述天气查询的示例,实例数据为“北京今天天气WEATHERINFO sys_loc:北京sys_time:今天”以及“今天下雨吗SYS_RAIN sys_time:今天”。
S202、对所有的搜索实例中的关键信息进行抽象,获取所述搜索实例下各关键词的属性以及所述搜索实例所对应的领域,对所有属性、领域和/或领域下的类别进行组合形成模板数据。
具体地,对已标注的搜索实例进行切词,从中获取到已标注的搜索实例中关键信息,进一步地可以对关键信息进行抽象统一,可以抽象出关键信息的属性。例如,“北京今天天气WEATHERINFO sys_loc:北京sys_time:今天”切词后,“北京”“今天”可以作为关键信息。在获取到关键信息进行抽象归类,可以分析关键信息的属性,“北京”的属性为“loc”,“今天”的属性为“time”。
进一步地,根据已标注的搜索实例可以确定出query的领域,例如可以根据“天气”这一切词,可以确定该搜索实体所属的领域为“WEATHERINFO”。
在确定出搜索实例的关键信息的所有属性后,可以所有属性、领域和/或领域下的类别进行组合形成模板数据。上述形成模板数据的过程是一个自动的过程,不再需要用户进行模板实例的构建和标注。
作为一种可能实现方式,如图3为本实施例提供的一种模板数据形成的示意图。首先,对标注的搜索实例进行槽位抽取,其中槽位即为搜索实例中关键信息,然后结合停用词表从获取到关键信息中去除停用词,然后按照对所有的搜索实例中的关键信息进行抽象,获取所述搜索实例下各关键词的属性以及所述搜索实例所对应的领域,对所有属性、领域和/或领域下的类别进行组合形成模板数据的具体内容。图3中左侧为模板数据形成过程的示意图,右侧为一个具体的示例。对“北京今天的天气WEATHERINFO sys_loc:北京sys_time:今天”切词后“北京”“今天”“的”“天气”,其中“北京”的属性为“sys_loc”“今天”的属性为“sys_time”,经过处理后,最终形成一个模板[D:sys_loc][D:sys_time]天气“weather”。
S203、对实例数据进行结构化处理形成实例词典。
为了使实例词典具有通用性,可以对所有的实例数据进行结构化处理,得到符合一定规则的实例词典。例如,将实例数据的文字表达转换成二进制表达,形成一个实例词典。
S204、对模板数据进行结构化处理形成模板词典。
为了使实例词典具有通用性,可以对所有的实例数据进行结构化处理,得到符合一定规则的实例词典。例如,将实例数据的文字表达转换成二进制表达,形成一个实例词典。
S205、对实例数据和模板数据进行分词倒排索引,形成倒排词典。
基于实例数据和模板数据进行切词后,基于分词倒排索引算法,形成倒排词典,该倒排词典中包括:分词与各已标注的搜索实例的之间的映射关系。
图4为本发明实施例提供的另一种基于人工智能的搜索信息解析方法的流程示意图。如图4所示,该基于人工智能的搜索信息解析方法包括以下步骤:
S301、获取标注数据。
关于标注数据的获取过程此处不再赘述,可参见上述实施例中相关内容的记载。
本实施例中,以购买到某地的车票为例,获取到标注数据:
到石家庄的车票=>END_LOC:石家庄
去北京的车票=>END_LOC:北京
S302、对标注数据进行同义词扩展,得到扩展后标注数据。
为了实现丰富标注数据,以形成覆盖更多词语的词典,可以利用同义词对标注数据进行扩展。
例如“到”“去”的同义词可以为“去往”“开往”等,从而可以形成扩展后标注数据:
到石家庄的车票=>END_LOC:石家庄
去北京的车票=>END_LOC:北京
去往石家庄的车票=>END_LOC:石家庄
去往北京的车票=>END_LOC:北京
S303、对扩展后标注数据进行训练,生成实例词典、模板词典和倒排词典。
本实施例中,在获取到扩展后标注数据后,按照上述实施例中S102、图2以及图3中相关内容的记载,此处不再赘述。
S304、获取待识别的目标搜索信息。
S305、对目标搜索信息的片段进行同义词扩展,得到同义搜索信息。
为了提高目标query解析成功的概率,可以对目标query中的片段进行同义扩展,得到同义query。
S306、基于实例词典、模板词典以及倒排词典,对同义搜索信息进行解析识别,得到与同义搜索信息对应的解析结果作为目标解析结果。
基于三种词典的识别过程可以参见上述实施例中相关内容的记载。此处不再赘述。
当目标词典为实例词典时,将目标query在实例词典中进行匹配,如果匹配出与目标query一致的目标搜索实例,根据目标搜索实例的标注形成目标解析结果。
进一步地,当目标词典为模板词典时,提取目标query中的关键信息,根据关键信息在模板词典中进行匹配,得到与目标query对应的目标模板,基于目标模板对目标query进行解析,得到目标解析结果。
进一步地,当目标词典为倒排词典时,可以基于倒排词典对目标query进行解析,如图5为本实施例提供的基于倒排词典对目标query解析的过程示意图。首先,对目标query进行分片段,结合同义词表对目标query中的片段进行扩展,结合修饰搭配词表和停用词表对分词进行筛选,然后在倒排词典中进行倒排索引,得到第一候选相似query集合,在获取到第一候选相似query集合后,对第一候选query集合进行筛选,得到第二候选相似query集合。进一步地,结合相似度计算,得到最终的目标相似query,将目标相似query的解析结果作为目标解析结果。其中,目标相似query与待识别的目标query的相似度最高。
在通过倒排索引得到第一候选相似query集合之后,可以通过K路归并计算出第一候选相似query集合中每个相似query对待识别的目标query的覆盖度,然后可以根据覆盖对第一候选相似query集合进行筛选,得到第二候选相似query集合,以实现对第一候选相似query集合的优化,减少候选相似query的数量。
例如,对覆盖度进行排序,按照从高到低的顺序,选取预设个数的相似query形成第二候选相似query集合。再例如,可以选取覆盖度超过预设的阈值的相似query构成第二候选相似query集合。
进一步地,计算待识别的目标query与第二候选相似query集合中每个相似query的相似度,根据相似度从第二候选相似query集合中选取与目标query相似最高的作为目标相似query。可以设置一个相似度阈值,将相似度超出该阈值的相似query作为目标相似query。如果不存在相似度超出该阈值的相似query,可以所有相似度从中选择相似度高的部分相似query作为目标相似query。
本实施例中,可以基于一个构建的相似度计算模块进行语义相似度计算。如图6所示,其为一个相似度计算模型的构建示意图。对query进行采集,然后基于采集的query形成训练语料,结合线下资源同义词表、修饰搭配词表以及停用词表,对训练语料进行特征提取,得到知识库特征、语义相似度特征、字面相似度特征以及结构相似度特征。其中,知识库特征主要包括:同义特征、修饰特征、搭配特征以及停用词特征。在获取到这些特征后,可以使用迭代的决策树算法(Gradient Boosting Decision Tree,简称GBDT)进行学习形成一个相似度计算模型。在获取到相似度计算模型后,可以基于该相似度计算模型来识别新的query与候选query之间的相似度。
以“北京今天的天气情况”为例,结合倒排词典进行解析,解析过程如图7所示。对“北京今天的天气情况”切词得到“北京”AND“今天”AND“天气”OR“气候”。倒排词典中与“北京”存在映射关系的搜索实体的标识码为“0,3,4,5”,与“今天”存在映射关系的搜索实体的标识码为“2,4”,与“天气”存在映射关系的搜索实体的标识码为“0,3,4”,与“气候”存在映射关系的搜索实体的标识码为“6”。根据K路归并后,可以得到三个候选解析结果“北京今天如何”“北京的天气”“今天的天气”,然后将query与每个候选解析结果进行相似度计算,可以得到[北京今天的天气情况,北京今天的天气如何]相似度为0.9,[北京今天的天气情况,北京的天气]相似度为0.6,[北京今天的天气情况,今天的天气]相似度为0.6。从中可以选取出相似度最高query为“北京的今天的天气如何”,从而可以确定出目标解析结果为“intent=weather Slots:sys_loc=北京sys_time=今天”。
下面结合购票场景,对本实施例进行解释说明。
标注数据为:到石家庄的车票=>END_LOC:石家庄
去北京的车票=>END_LOC:北京
实例词典为:到石家庄的车票=>END_LOC:石家庄
去北京的车票=>END_LOC:北京
利用实例词典对目标query进行在线识别:
待解析的目标query:到石家庄的车票=>END_LOC:石家庄
待解析的目标query:去北京的车票=>END_LOC:北京
待解析的目标query:到北京的车票=>无法识别
待解析的目标query:去石家庄的车票=>无法识别
可以看出实例词典生效是一一对应的生效方式,只有待识别的query与用户标注过的搜索实例完全匹配时,才能找到对应的结果,而利用用户标注过的关键信息没法自动扩展上下文进行自动标注。
当目标词典为模板词典时,模板词典具有一定的泛化能力,可以用户标注过的搜索实例和实体词,自动将目标query中的关键信息对应到其他实体词上。
利用该实例词典对目标query进行在线识别:
标注数据为:到石家庄的车票=>END_LOC:石家庄
去北京的车票=>END_LOC:北京
模板词典为:到[END_LOC]的车票
去[END_LOC]的车票
利用模板词典对目标query进行在线识别:
待识别的目标query:到北京的车票=>END_LOC:北京
待识别的目标query:去石家庄的车票=>END_LOC:石家庄
当目标词典为倒排词典时,倒排词典具有较强的泛化能力,可以为待识别的目标query获取到多个候选解析结果。
标注数据为:到石家庄的车票=>END_LOC:石家庄
去北京的车票=>END_LOC:北京
倒排词典:北京——去北京的车票END_LOC:北京
车票——去北京的车票END_LOC:北京以及=>到石家庄的车票END_LOC:石家庄
利用倒排词典对目标query进行在线识别:
待识别的目标query:到北京的车票
北京=>去北京的车票END_LOC:北京
车票=>去北京的车票END_LOC:北京和到石家庄的车票END_LOC:石家庄
最终可以识别出END_LOC:北京作为目标解析结果。
以天气查询这一使用场景为例,图8为本发明实施例提供的基于人工智能的搜索信息解析方法的应用示意图。如图8基于人工智能的搜索信息解析过程包括离线训练部分和在写识别部分。
离线训练部分:获取到下面的标注数据:
Schema
Intent:WEATHERINFO|SYS_RAIN
Slots:sys_loc=北京|上海……
sys_time=今天|明天
标注实例
北京今天天气WEATHERINFO sys_loc:北京sys_time:今天
今天下雨吗SYS_RAIN sys_time:今天
[D:sys_loc][D:sys_time]下雨吗SYS_RAIN
需要说明的是,WEATHERINFO用于表示领域,SYS_RAIN为一个该领域下的一个类别,sys_loc以及sys_time为词语的属性,北京|上海……为sys_loc属性下的实体词,今天|明天为sys_time属性下的实体词。其中,“北京今天天气WEATHERINFO sys_loc:北京sys_time:今天”以及“今天下雨吗SYS_RAIN sys_time:今天”为标注的搜索实例,“[D:sys_loc][D:sys_time]下雨吗SYS_RAIN”为标注的模板实例。
进一步地,将标准的搜索实例作为实例数据,将标准的模板实例作为模板数据。基于实例数据得到实例词典,基于模板数据得到模板词典,并且基于实例数据和模板数据形成倒排词典。
在获取到三个词典后,可以利用三个词典进行目标query进行在线解析。图8中给出了在线解析的具体过程,按照优先级基于实例词典高精度匹配,得到目标解析结果,基于模板词典模板匹配得到目标解析结果,以及基于倒排词典进行泛化匹配,得到目标解析结果。具体过程此处不再赘述,可参见上述实施例中相关内容的记载。
通过上述图8提供基于人工智能的搜索信息解析方法,可以对用户输入的多个类别的query进行解析结果覆盖率的测试。测试的query包括阿拉丁天气、度秘天气、阿拉丁电影、度秘电影。在人工标注数据<=100的情况下,覆盖率可以达到45%~75%,针对个别口语化程度低的类目,标注数据在10条的情况下,覆盖率即可接近90%。具体效果如图9所示。
图10为本发明实施例提供的一种基于人工智能的搜索信息解析装置的结构示意图。如图10所示,该基于人工智能的搜索信息解析装置包括:第一获取模块11、词典生成模块12、第二获取模块13和解析模块14。
第一获取模块11,用于获取标注数据,其中,所述标注数据包括标注的搜索实例以已标注的模板实例、搜索意图的领域以及所述领域下的类别,以及词语的属性以及各属性包括的实体词语;
词典生成模块12,用于对所述标注数据进行训练,生成实例词典、模板词典和倒排词典,其中,所述实例词典包括所述搜索实例以及所述搜索实例的标注;所述模板词典包括属性、领域和/或类别的组合;所述倒排词典包括分词与已标注的搜索实体的对应关系。
第二获取模块13,用于获取待识别的目标搜索信息。
解析模块14,用于基于所述实例词典、所述模板词典以及所述倒排词典,对所述目标搜索信息进行解析,得到与所述目标搜索信息对应的目标解析结果。
进一步地,词典生成模块12,具体用于:
从所述标注数据提取已标注的所述搜索实例作为实例数据;
对所有的所述搜索实例中的关键信息进行抽象,获取所述搜索实例下各关键信息的属性以及所述搜索实例所对应的领域,对所有属性、领域和/或领域下的类别进行组合形成模板数据;
对所述实例数据进行结构化处理形成所述实例词典;
对所述模板数据进行结构化处理形成所述模板词典;
对所述实例数据和所述模板数据进行分词倒排索引,形成所述倒排词典。
进一步地,解析模块14,具体用于:
按照为三个词典设置的优先级,依次使用其中一个目标词典对所述目标搜索信息进行解析;
当根据所述目标词典获取到所述目标解析结果时,停止利用下一词典对所述目标搜索信息进行解析。
进一步地,解析模块14,具体用于:
当所述目标词典为所述实例词典时,将所述目标搜索信息在所述实例词典中进行匹配;
如果匹配出与所述目标搜索信息一致的目标搜索实例,根据所述目标搜索实例的标注形成所述目标解析结果。
进一步地,解析模块14,具体用于:
当所述目标词典为所述模板词典时,提取所述目标搜索信息中的关键信息;
根据所述关键信息在所述模板词典中进行匹配,得到与所述目标搜索信息对应的目标模板;
基于所述目标模板对所述目标搜索信息进行解析,得到所述目标解析结果。
进一步地,解析模块14,具体用于:
当所述目标词典为所述倒排词典时,对所述目标搜索信息进行分词;
根据所述分词在所述倒排词典中进行倒排索引,得到第一候选相似搜索信息集合;
对所述第一候选相似搜索信息集合进行K路归并,得到所述第一候选相似搜索信息集合中每个相似搜索信息对所述目标搜索信息的覆盖度,根据所述覆盖度对所述第一候选相似搜索信息集合进行筛选,得到第二候选相似搜索信息;
计算所述目标搜索信息与第二候选相似搜索信息中每个相似搜索信息的相似度;
根据所述相似度从所述第二候选相似搜索信息集合中选取所述目标搜索信息相似度最高的目标相似搜索信息),并将所述目标相似搜索信息对应的解析结果作为所述目标解析结果。
进一步地,所述的基于人工智能的搜索信息解析装置,还包括:
扩展模块15,用于对所述标注数据或者所述搜索信息进行同义扩展。
本发明实施例的基于人工智能的搜索信息解析装置,通过获取标注数据,然后离线过程中对标注数据进行训练分析,形成可以用于对query解析的实例词典、模板词典以及倒排词典。在对query进行解析的过程中,只需要将三种词典作为依据,就可以自动完成对query的解析,不再依赖专业人员的经验,而且通过三种词典对query的解析是整体解析,不会存在信息丢失的问题。由于三种词典都可以给出query的一个解析结果可以利用三个词典逐个对query进行解析,以获取到query的解析结果,从而能够提高识别出query的概率。
图11示出了适于用来实现本申请实施方式的示例性计算机设备20的框图。图11显示的计算机设备20仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图11所示,计算机设备20以通用计算设备的形式表现。计算机设备20的组件可以包括但不限于:一个或者多个处理器或者处理单元21,系统存储器22,连接不同系统组件(包括系统存储器22和处理单元21)的总线23。
总线23表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备20典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备20访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器22可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图11未显示,通常称为“硬盘驱动器”)。尽管图11中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线23相连。存储器22可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器22中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备20也可以与一个或多个外部设备50(例如键盘、指向设备、显示器60等)通信,还可与一个或者多个使得用户能与该计算机设备20交互的设备通信,和/或与使得该计算机设备20能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口24进行。并且,计算机设备20还可以通过网络适配器25与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器25通过总线23与计算机设备20的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备20使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元21通过运行存储在系统存储器22中的程序,从而执行各种功能应用以及数据处理,例如实现图1-图7所示的基于人工智能的搜索信息解析方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory;以下简称:ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory;以下简称:EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network;以下简称:LAN)或广域网(Wide Area Network;以下简称:WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
为了实现上述实施例,本发明还提出一种计算机程序产品,当计算机程序产品中的指令由处理器执行时,执行如前述实施例所述的基于人工智能的搜索信息解析方法。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时能够实现如前述实施例所述的基于人工智能的搜索信息解析方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (17)

1.一种基于人工智能的搜索信息解析方法,其特征在于,包括:
获取标注数据,其中,所述标注数据包括标注的搜索实例、标注的模板实例、搜索意图的领域以及所述领域下的类别,以及词语的属性以及各属性包括的实体词语;
对所述标注数据进行训练,生成实例词典、模板词典和倒排词典,其中,所述实例词典包括所述搜索实例以及所述搜索实例的标注;所述模板词典包括属性、领域和/或类别的组合;所述倒排词典包括分词与已标注的搜索实体的对应关系;
获取待识别的目标搜索信息;
基于所述实例词典、所述模板词典以及所述倒排词典,对所述目标搜索信息进行解析,得到与所述目标搜索信息对应的目标解析结果。
2.根据权利要求1所述的基于人工智能的搜索信息解析方法,其特征在于,所述对所述标注数据进行训练,生成实例词典、模板词典和倒排词典,包括:
从所述标注数据提取已标注的所述搜索实例作为实例数据;
对所有的所述搜索实例中的关键信息进行抽象,获取所述搜索实例下各关键信息的属性以及所述搜索实例所对应的领域,对所有属性、领域和/或领域下的类别进行组合形成模板数据;
对所述实例数据进行结构化处理形成所述实例词典;
对所述模板数据进行结构化处理形成所述模板词典;
对所述实例数据和所述模板数据进行分词倒排索引,形成所述倒排词典。
3.根据权利要求1所述的基于人工智能的搜索信息解析方法,其特征在于,所述基于所述实例词典、所述模板词典以及所述倒排词典,对所述目标搜索信息进行解析,得到与所述目标搜索信息对应的目标解析结果,包括:
按照为三个词典设置的优先级,依次使用其中一个目标词典对所述目标搜索信息进行解析;
当根据所述目标词典获取到所述目标解析结果时,停止利用下一词典对所述目标搜索信息进行解析。
4.根据权利要求3所述的基于人工智能的搜索信息解析方法,其特征在于,当所述目标词典为所述实例词典时,将所述目标搜索信息在所述实例词典中进行匹配;
如果匹配出与所述目标搜索信息一致的目标搜索实例,根据所述目标搜索实例的标注形成所述目标解析结果。
5.根据权利要求3所述的基于人工智能的解析方法,其特征在于,当所述目标词典为所述模板词典时,提取所述目标搜索信息中的关键信息;
根据所述关键信息在所述模板词典中进行匹配,得到与所述目标搜索信息对应的目标模板;
基于所述目标模板对所述目标搜索信息进行解析,得到所述目标解析结果。
6.根据权利要求3所述的基于人工智能的搜索信息解析方法,其特征在于,
当所述目标词典为所述倒排词典时,对所述目标搜索信息进行分段;
根据所述分词在所述倒排词典中进行倒排索引,得到第一候选相似搜索信息集合;
对所述第一候选相似搜索信息集合进行K路归并,得到所述第一候选相似搜索信息集合中每个相似搜索信息对所述目标搜索信息的覆盖度,根据所述覆盖度对所述第一候选相似搜索信息集合进行筛选,得到第二候选相似搜索信息集合;
计算所述目标搜索信息与所述第二候选相似搜索信息集合中每个相似搜索信息的相似度;
根据所述相似度从所述第二候选相似搜索信息集合中选取与所述目标搜索信息相似度最高的目标相似搜索信息,并将所述目标相似搜索信息对应的解析结果作为所述目标解析结果。
7.根据权利要求1-6任一项所述的基于人工智能的搜索信息解析方法,其特征在于,还包括:
对所述标注数据或者所述目标搜索信息进行同义扩展。
8.一种基于人工智能的搜索信息解析装置,其特征在于,包括:
第一获取模块,用于获取标注数据,其中,所述标注数据包括标注的搜索实例、标注的模板实例、搜索意图的领域以及所述领域下的类别,以及词语的属性以及各属性包括的实体词语;
词典生成模块,用于对所述标注数据进行训练,生成实例词典、模板词典和倒排词典,其中,所述实例词典包括所述搜索实例以及所述搜索实例的标注;所述模板词典包括属性、领域和/或类别的组合;所述倒排词典包括分词与已标注的搜索实体的对应关系;
第二获取模块,用于获取待识别的目标搜索信息;
解析模块,用于基于所述实例词典、所述模板词典以及所述倒排词典,对所述目标搜索信息进行解析,得到与所述目标搜索信息对应的目标解析结果。
9.根据权利要求8所述的基于人工智能的搜索信息解析装置,其特征在于,所述词典生成模块,具体用于:
从所述标注数据提取已标注的所述搜索实例作为实例数据;
对所有的所述搜索实例中的关键信息进行抽象,获取所述搜索实例下各关键信息的属性以及所述搜索实例所对应的领域,对所有属性、领域和/或领域下的类别进行组合形成模板数据;
对所述实例数据进行结构化处理形成所述实例词典;
对所述模板数据进行结构化处理形成所述模板词典;
对所述实例数据和所述模板数据进行分词倒排索引,形成所述倒排词典。
10.根据权利要求9所述的基于人工智能的搜索信息解析装置,其特征在于,所述解析模块,具体用于:
按照为三个词典设置的优先级,依次使用其中一个目标词典对所述目标搜索信息进行解析;
当根据所述目标词典获取到所述目标解析结果时,停止利用下一词典对所述目标搜索信息进行解析。
11.根据权利要求10所述的基于人工智能的搜索信息解析装置,其特征在于,所述解析模块,具体用于:
当所述目标词典为所述实例词典时,将所述目标搜索信息在所述实例词典中进行匹配;
如果匹配出与所述目标搜索信息一致的目标搜索实例,根据所述目标搜索实例的标注形成所述目标解析结果。
12.根据权利要求10所述的基于人工智能的搜索信息解析装置,其特征在于,所述解析模块,具体用于:
当所述目标词典为所述模板词典时,提取所述目标搜索信息中的关键信息;
根据所述关键信息在所述模板词典中进行匹配,得到与所述目标搜索信息对应的目标模板;
基于所述目标模板对所述目标搜索信息进行解析,得到所述目标解析结果。
13.根据权利要求10所述的基于人工智能的搜索信息解析装置,其特征在于,所述解析模块,具体用于:
当所述目标词典为所述倒排词典时,对所述目标搜索信息进行分词;
根据所述分词在所述倒排词典中进行倒排索引,得到第一候选搜索信息;
对所述第一候选像素搜索信息集合进行K路归并,得到所述第一候选相似搜索信息中每个相似搜索信息对所述目标搜索信息的覆盖度,根据所述覆盖度对所述第一候选相似搜索信息集合进行筛选,得到第二候选相似搜索信息集合;
计算所述目标搜索信息与所述第二候选相似搜索信息中每个相似搜索信息的相似度;
根据所述相似度从所述第二候选相似搜索信息集合中选取与所述目标搜索信息相似度最高的目标相似搜索信息,并将所述目标相似搜索信息对应的解析结果作为所述目标解析结果。
14.根据权利要求8-13任一项所述的基于人工智能的搜索信息解析装置,其特征在于,还包括:
扩展模块,用于对所述标注数据或者所述搜索信息进行同义扩展。
15.一种计算机设备,其特征在于,包括存储器和处理器其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-7中任一所述的基于人工智能的搜索信息解析方法。
16.一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行如权利要求1-7中任一项所述的基于人工智能的搜索信息解析方法。
17.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的基于人工智能的搜索信息解析方法。
CN201710475689.7A 2017-06-21 2017-06-21 基于人工智能的搜索信息解析方法及装置 Pending CN107301227A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710475689.7A CN107301227A (zh) 2017-06-21 2017-06-21 基于人工智能的搜索信息解析方法及装置
US15/875,453 US10657325B2 (en) 2017-06-21 2018-01-19 Method for parsing query based on artificial intelligence and computer device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710475689.7A CN107301227A (zh) 2017-06-21 2017-06-21 基于人工智能的搜索信息解析方法及装置

Publications (1)

Publication Number Publication Date
CN107301227A true CN107301227A (zh) 2017-10-27

Family

ID=60135844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710475689.7A Pending CN107301227A (zh) 2017-06-21 2017-06-21 基于人工智能的搜索信息解析方法及装置

Country Status (2)

Country Link
US (1) US10657325B2 (zh)
CN (1) CN107301227A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885874A (zh) * 2017-11-28 2018-04-06 上海智臻智能网络科技股份有限公司 数据查询方法和装置、计算机设备及计算机可读存储介质
CN108549656A (zh) * 2018-03-09 2018-09-18 北京百度网讯科技有限公司 语句解析方法、装置、计算机设备及可读介质
CN108932326A (zh) * 2018-06-29 2018-12-04 北京百度网讯科技有限公司 一种实例扩展方法、装置、设备和介质
CN108959257A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 一种自然语言解析方法、装置、服务器及存储介质
CN110008319A (zh) * 2019-02-27 2019-07-12 百度在线网络技术(北京)有限公司 基于对话模板的模型训练方法和装置
CN110019712A (zh) * 2017-12-07 2019-07-16 上海智臻智能网络科技股份有限公司 多意图查询方法和装置、计算机设备及计算机可读存储介质
CN110019713A (zh) * 2017-12-07 2019-07-16 上海智臻智能网络科技股份有限公司 基于意图理解的数据检索方法和装置、设备及存储介质
CN110019714A (zh) * 2017-12-07 2019-07-16 上海智臻智能网络科技股份有限公司 基于历史结果的多意图查询方法、装置、设备及存储介质
CN110168535A (zh) * 2017-10-31 2019-08-23 腾讯科技(深圳)有限公司 一种信息处理方法及终端、计算机存储介质
CN111046662A (zh) * 2018-09-26 2020-04-21 阿里巴巴集团控股有限公司 分词模型的训练方法、装置、系统和存储介质
CN111241124A (zh) * 2020-01-07 2020-06-05 百度在线网络技术(北京)有限公司 一种需求模型构建方法、装置、电子设备和介质
CN112215010A (zh) * 2019-07-10 2021-01-12 北京猎户星空科技有限公司 一种语义识别方法及设备
CN112445888A (zh) * 2019-09-05 2021-03-05 腾讯科技(深圳)有限公司 一种信息抽取方法及相关设备
CN113536093A (zh) * 2018-04-26 2021-10-22 华为技术有限公司 一种信息处理方法及装置
TWI768513B (zh) * 2020-10-20 2022-06-21 宏碁股份有限公司 人工智慧模型訓練系統及人工智慧模型訓練方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11308141B2 (en) * 2018-12-26 2022-04-19 Yahoo Assets Llc Template generation using directed acyclic word graphs
CN111401034B (zh) * 2018-12-28 2023-10-10 深圳市优必选科技有限公司 文本的语义分析方法、语义分析装置及终端
CN111552792B (zh) * 2020-04-30 2023-11-21 中国建设银行股份有限公司 一种信息查询方法、装置、电子设备及存储介质
CN111597205B (zh) * 2020-05-26 2024-02-13 北京金堤科技有限公司 模板配置方法、信息提取方法、装置以及电子设备、介质
CN111612015B (zh) * 2020-05-26 2023-10-31 创新奇智(西安)科技有限公司 车辆识别方法、装置及电子设备
CN111966781B (zh) * 2020-06-28 2024-02-20 北京百度网讯科技有限公司 数据查询的交互方法及装置、电子设备和存储介质
CN113807657A (zh) * 2021-08-18 2021-12-17 山东健康医疗大数据有限公司 一种实现医院药品数据标准化的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102810117A (zh) * 2012-06-29 2012-12-05 北京百度网讯科技有限公司 一种用于提供搜索结果的方法与设备
US8463782B1 (en) * 2007-07-10 2013-06-11 Google Inc. Identifying common co-occurring elements in lists
CN105224622A (zh) * 2015-09-22 2016-01-06 中国搜索信息科技股份有限公司 面向互联网的地名地址提取与标准化方法
CN105843850A (zh) * 2016-03-15 2016-08-10 北京百度网讯科技有限公司 搜索优化方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8965922B2 (en) * 2007-10-30 2015-02-24 International Business Machines Corporation Intelligent content assistance
US10509814B2 (en) * 2014-12-19 2019-12-17 Universidad Nacional De Educacion A Distancia (Uned) System and method for the indexing and retrieval of semantically annotated data using an ontology-based information retrieval model
ITUB20154726A1 (it) * 2015-10-19 2017-04-19 Kjuicer Com S R L Metodo e sistema per l?estrazione di riassunti da testi con sottolineatura strutturata.

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8463782B1 (en) * 2007-07-10 2013-06-11 Google Inc. Identifying common co-occurring elements in lists
CN102810117A (zh) * 2012-06-29 2012-12-05 北京百度网讯科技有限公司 一种用于提供搜索结果的方法与设备
CN105224622A (zh) * 2015-09-22 2016-01-06 中国搜索信息科技股份有限公司 面向互联网的地名地址提取与标准化方法
CN105843850A (zh) * 2016-03-15 2016-08-10 北京百度网讯科技有限公司 搜索优化方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙浩航: "基于人工智能的搜索信息解析方法", 《数码设计》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11645517B2 (en) 2017-10-31 2023-05-09 Tencent Technology (Shenzhen) Company Limited Information processing method and terminal, and computer storage medium
CN110168535B (zh) * 2017-10-31 2021-07-09 腾讯科技(深圳)有限公司 一种信息处理方法及终端、计算机存储介质
CN110168535A (zh) * 2017-10-31 2019-08-23 腾讯科技(深圳)有限公司 一种信息处理方法及终端、计算机存储介质
CN107885874A (zh) * 2017-11-28 2018-04-06 上海智臻智能网络科技股份有限公司 数据查询方法和装置、计算机设备及计算机可读存储介质
CN107885874B (zh) * 2017-11-28 2020-09-29 上海智臻智能网络科技股份有限公司 数据查询方法和装置、计算机设备及计算机可读存储介质
CN110019712A (zh) * 2017-12-07 2019-07-16 上海智臻智能网络科技股份有限公司 多意图查询方法和装置、计算机设备及计算机可读存储介质
CN110019714A (zh) * 2017-12-07 2019-07-16 上海智臻智能网络科技股份有限公司 基于历史结果的多意图查询方法、装置、设备及存储介质
CN110019713A (zh) * 2017-12-07 2019-07-16 上海智臻智能网络科技股份有限公司 基于意图理解的数据检索方法和装置、设备及存储介质
CN108549656A (zh) * 2018-03-09 2018-09-18 北京百度网讯科技有限公司 语句解析方法、装置、计算机设备及可读介质
CN113536093A (zh) * 2018-04-26 2021-10-22 华为技术有限公司 一种信息处理方法及装置
CN108959257B (zh) * 2018-06-29 2022-11-22 北京百度网讯科技有限公司 一种自然语言解析方法、装置、服务器及存储介质
CN108959257A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 一种自然语言解析方法、装置、服务器及存储介质
CN108932326B (zh) * 2018-06-29 2021-02-19 北京百度网讯科技有限公司 一种实例扩展方法、装置、设备和介质
CN108932326A (zh) * 2018-06-29 2018-12-04 北京百度网讯科技有限公司 一种实例扩展方法、装置、设备和介质
CN111046662A (zh) * 2018-09-26 2020-04-21 阿里巴巴集团控股有限公司 分词模型的训练方法、装置、系统和存储介质
CN111046662B (zh) * 2018-09-26 2023-07-18 阿里巴巴集团控股有限公司 分词模型的训练方法、装置、系统和存储介质
CN110008319A (zh) * 2019-02-27 2019-07-12 百度在线网络技术(北京)有限公司 基于对话模板的模型训练方法和装置
CN112215010A (zh) * 2019-07-10 2021-01-12 北京猎户星空科技有限公司 一种语义识别方法及设备
CN112445888A (zh) * 2019-09-05 2021-03-05 腾讯科技(深圳)有限公司 一种信息抽取方法及相关设备
CN111241124A (zh) * 2020-01-07 2020-06-05 百度在线网络技术(北京)有限公司 一种需求模型构建方法、装置、电子设备和介质
CN111241124B (zh) * 2020-01-07 2023-10-03 百度在线网络技术(北京)有限公司 一种需求模型构建方法、装置、电子设备和介质
TWI768513B (zh) * 2020-10-20 2022-06-21 宏碁股份有限公司 人工智慧模型訓練系統及人工智慧模型訓練方法

Also Published As

Publication number Publication date
US20180373692A1 (en) 2018-12-27
US10657325B2 (en) 2020-05-19

Similar Documents

Publication Publication Date Title
CN107301227A (zh) 基于人工智能的搜索信息解析方法及装置
US10664660B2 (en) Method and device for extracting entity relation based on deep learning, and server
CN107291828B (zh) 基于人工智能的口语查询解析方法、装置及存储介质
US10599983B2 (en) Inferred facts discovered through knowledge graph derived contextual overlays
US20200210468A1 (en) Document recommendation method and device based on semantic tag
KR20190094078A (ko) 모호한 엔티티 단어에 기반한 텍스트 처리 방법과 장치
CN108460014A (zh) 企业实体的识别方法、装置、计算机设备及存储介质
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
CN113535974B (zh) 诊断推荐方法及相关装置、电子设备、存储介质
JP2020027649A (ja) エンティティ関係データ生成方法、装置、機器、及び記憶媒体
CN107992585A (zh) 通用标签挖掘方法、装置、服务器及介质
US20220318275A1 (en) Search method, electronic device and storage medium
CN114048350A (zh) 一种基于细粒度跨模态对齐模型的文本-视频检索方法
CN110162786B (zh) 构建配置文件以及抽取结构化信息的方法、装置
CN109710759B (zh) 文本切分方法、装置、计算机设备和可读存储介质
CN109783801B (zh) 一种电子装置、多标签分类方法及存储介质
CN109657053A (zh) 多文本摘要生成方法、装置、服务器及存储介质
CN112836487B (zh) 一种自动评论方法、装置、计算机设备及存储介质
JP2019169126A (ja) 人工知能に基づく三元組チェック方法、装置及びコンピュータプログラム
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN113220835B (zh) 文本信息处理方法、装置、电子设备以及存储介质
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN109408578A (zh) 一种针对异构环境监测数据融合方法
CN112528658B (zh) 层次化分类方法、装置、电子设备和存储介质
CN109710951A (zh) 基于翻译历史的辅助翻译方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171027