CN111078849B - 用于输出信息的方法和装置 - Google Patents

用于输出信息的方法和装置 Download PDF

Info

Publication number
CN111078849B
CN111078849B CN201911213501.7A CN201911213501A CN111078849B CN 111078849 B CN111078849 B CN 111078849B CN 201911213501 A CN201911213501 A CN 201911213501A CN 111078849 B CN111078849 B CN 111078849B
Authority
CN
China
Prior art keywords
corpus
word
candidate
expansion
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911213501.7A
Other languages
English (en)
Other versions
CN111078849A (zh
Inventor
陈万顺
黄炼楷
王昕煜
林大勇
陈炳金
徐威
林英展
黄世维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201911213501.7A priority Critical patent/CN111078849B/zh
Publication of CN111078849A publication Critical patent/CN111078849A/zh
Application granted granted Critical
Publication of CN111078849B publication Critical patent/CN111078849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施例公开了用于输出信息的方法和装置。该方法的一具体实施方式包括:将待改写的搜索信息切词得到词序列;从预先生成的语料库中搜索词序列对应的语料,添加到候选语料集合;通过至少一种相似度计算方法计算搜索信息与候选语料集合中各候选语料的相似度;通过预设的加权算法为不同相似度计算方法的计算结果设置权重并计算加权和;输出预定数目个相似度加权和最大的候选语料。该实施方式能够提高语义改写的质量和性能。

Description

用于输出信息的方法和装置
技术领域
本公开的实施例涉及计算机技术领域,具体涉及用于输出信息的方法和装置。
背景技术
对话系统是人工智能时代重要的交互方式。在一个对话系统中,最核心的功能就是输入用户的查询query(搜索信息),从而识别出用户的意图。由于语言表达的丰富性,同一个含义的query有着各种不同的表达,有时候查询的query并不能完全被系统识别出意图,这种情况下就需要对query进行语义改写的功能,通过改写将不能识别意图的query改写成具有相同含义,但是能被识别意图的query。
现在技术中通常通过人工标注数据集作为候选集进行数据扩展。然后再进行query改写。query改写解决方案包括:1、对候选集进行聚类,聚成N类。2、计算输入的查询query最接近的类别,然后通过模型计算输入的query和候选集里的query相似度,从而输出top k的结果。
现有的这种改写方案具有如下缺点:
1、数据的扩展需要人工标注大量的数据来构建,语义泛化能力较弱,不易对数据进行扩展。
2、查询性能低,耗时高,精度较差。
3、聚类不能准确的表达数据的信息,且数据量较大的场景下表现越差,效果不稳定。
4、结果可控性差,不易干预。
发明内容
本公开的实施例提出了用于输出信息的方法和装置。
第一方面,本公开的实施例提供了一种用于输出信息的方法,包括:将待改写的搜索信息切词得到词序列;从预先生成的语料库中搜索词序列对应的语料,添加到候选语料集合;通过至少一种相似度计算方法计算搜索信息与候选语料集合中各候选语料的相似度;通过预设的加权算法为不同相似度计算方法的计算结果设置权重并计算加权和;输出预定数目个相似度加权和最大的候选语料。
在一些实施例中,该方法还包括:对词序列进行实体识别,识别出词序列中各词的类型;根据实体类型为词序列中各词赋予权重;对于词序列中的每个词,将该词的权重传递给该词对应的候选语料;根据各候选语料的权重修正搜索信息与候选语料集合中各候选语料的相似度。
在一些实施例中,该方法还包括:对词序列中各词进行同义词扩展,得到扩展词集合;从预先生成的语料库中搜索扩展词集合对应的语料,添加到候选语料集合。
在一些实施例中,该方法还包括:对扩展词集合进行实体识别,识别出扩展词集合中各扩展词的类型;根据实体类型为扩展词集合中各扩展词赋予权重;对于扩展词集合中的每个扩展词,将该扩展词的权重传递给该扩展词对应的候选语料;根据各候选语料的权重修正搜索信息与候选语料集合中各候选语料的相似度。
在一些实施例中,该方法还包括:通过预设的关键词对各候选语料的相似度进行调整。
在一些实施例中,该方法还包括:在切词后将词序列与预设的屏蔽词库进行匹配,如果匹配成功,则丢弃搜索信息,不再进行搜索。
在一些实施例中,语料库通过如下步骤生成:通过预定规则对用户行为日志过滤以筛选出成功识别用户意图的数据记录;通过预先训练的生成对抗网络扩展出与数据记录语义相近的语料;为各语料创建用于查询的倒排索引并设置停用词。
第二方面,本公开的实施例提供了一种用于输出信息的装置,包括:分析单元,被配置成将待改写的搜索信息切词得到词序列;搜索单元,被配置成从预先生成的语料库中搜索词序列对应的语料,添加到候选语料集合;匹配单元,被配置成通过至少一种相似度计算装置计算搜索信息与候选语料集合中各候选语料的相似度;计算单元,被配置成通过预设的加权算法为不同相似度计算装置的计算结果设置权重并计算加权和;输出单元,被配置成输出预定数目个相似度加权和最大的候选语料。
在一些实施例中,该分析单元进一步被配置成:对词序列进行实体识别,识别出词序列中各词的类型;根据实体类型为词序列中各词赋予权重;对于词序列中的每个词,将该词的权重传递给该词对应的候选语料;根据各候选语料的权重修正搜索信息与候选语料集合中各候选语料的相似度。
在一些实施例中,该装置还包括扩展单元,被配置成:对词序列中各词进行同义词扩展,得到扩展词集合;从预先生成的语料库中搜索扩展词集合对应的语料,添加到候选语料集合。
在一些实施例中,扩展单元进一步被配置成:对扩展词集合进行实体识别,识别出扩展词集合中各扩展词的类型;根据实体类型为扩展词集合中各扩展词赋予权重;对于扩展词集合中的每个扩展词,将该扩展词的权重传递给该扩展词对应的候选语料;根据各候选语料的权重修正搜索信息与候选语料集合中各候选语料的相似度。
在一些实施例中,该装置还包括干预单元,被配置成:通过预设的关键词对各候选语料的相似度进行调整。
在一些实施例中,该装置还包括屏蔽单元,被配置成:在切词后将词序列与预设的屏蔽词库进行匹配,如果匹配成功,则丢弃搜索信息,不再进行搜索。
在一些实施例中,语料库通过如下步骤生成:通过预定规则对用户行为日志过滤以筛选出成功识别用户意图的数据记录;通过预先训练的生成对抗网络扩展出与数据记录语义相近的语料;为各语料创建用于查询的倒排索引并设置停用词。
第三方面,本公开的实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一的方法。
第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一的方法。
本公开的实施例提供的用于输出信息的方法和装置,数据的扩展虽然也需要人工标注数据,但是可以自动从日志数据进行扩展,增加相近的泛化query。检索模块查询速度快,选出候选集再进行细致的相似度计算能有效提升效率和精度。引入了多种匹配方式和排序方式,提升效果。可控性强,效果稳定。可以配置同义词扩展、屏蔽词、加权、干预等模块。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本公开的用于输出信息的方法的一个实施例的流程图;
图3是根据本公开的用于输出信息的方法的一个应用场景的示意图;
图4是根据本公开的用于输出信息的方法的又一个实施例的流程图;
图5是根据本公开的用于输出信息的装置的一个实施例的结构示意图;
图6是适于用来实现本公开的实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的用于输出信息的方法或用于输出信息的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且支持信息搜索的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的搜索结果提供支持的后台改写服务器。后台改写服务器可以对接收到的搜索信息等数据进行分析等处理,识别其意图,如果不能成功识别意图则将搜索信息改写成可以识别的语料,并将改写后的结果发送给搜索引擎,查询改写后语料的搜索结果再反馈给终端设备。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本公开的实施例所提供的用于输出信息的方法一般由服务器105执行,相应地,用于输出信息的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本公开的用于输出信息的方法的一个实施例的流程200。该用于输出信息的方法,包括以下步骤:
步骤201,将待改写的搜索信息切词得到词序列。
在本实施例中,用于输出信息的方法的执行主体(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户利用其进行信息搜索的终端接收搜索请求,其中,上述搜索请求包括了搜索信息。服务器可先对该搜索信息进行意图识别,如果无法识别则进行改写处理。服务器也可从第三方服务器接收待改写的搜索信息。搜索信息可以是字、词、或句中的一种。需要先将搜索信息切词得到词序列后再进行处理。切词可采用现有技术常用切词法,例如最大逆向匹配等。可选地,可在切词过程中剔除一些虚词,例如,“了”、“的”、“地”等。
可选地,还可用预设的口语库过滤掉口语词,例如“我想查天气预报”,则可将“我想”去掉。
在本实施例的一些可选的实现方式中,可预先设置屏蔽词,如果词序列中的词是屏蔽词,则无需进行改写,直接丢弃该搜索信息。可选地,可将丢弃原因反馈给终端设备。
步骤202,从预先生成的语料库中搜索词序列对应的语料,添加到候选语料集合。
在本实施例中,语料库中存储了关键词和包括该关键词的语料。通过关键词匹配即可搜索。语料库中采用倒排索引,通过关键词检索语料。语料库可设置停用词来减少索引数量,加快查询速度。可通过ElasticSearch搜索语料库。
语料库的语料记录了query和意图的对应关系,可以通过预定规则对用户行为日志过滤以筛选出成功识别用户意图的数据记录,然后从数据记录中提取query和意图的对应关系。例如,用户行为日志中记录了query和返回的多个搜索结果,还记录了用户点击查看的搜索结果,则可将用户点击查看的搜索结果对应的意图作为query的意图。
可选地,用户还可进一步扩展语料。通过预先训练的生成对抗网络扩展出与所述数据记录语义相近的语料。生成对抗网络是通过相近语义的样本训练的。
在本实施例的一些可选的实现方式中,该方法还包括:对词序列中各词进行同义词扩展,得到扩展词集合;从预先生成的语料库中搜索扩展词集合对应的语料,添加到候选语料集合。可通过设置同义词库进行同义词扩展。将词序列中的词与同义词库匹配,找到同义词,将同义词也作为搜索目标进行搜索。
步骤203,通过至少一种相似度计算方法计算搜索信息与候选语料集合中各候选语料的相似度。
在本实施例中,可设置一系列匹配的模型和相关性计算方法,如Simnet(百度研发的有监督的神经网络语义匹配模型)、CBOW(continuous bag of words,连续词袋模型)、Jaccard、cosine(余弦)等等。每种方法都可计算出搜索信息与候选语料集合中各候选语料的相似度。对同一对候选语料和搜索信息,这些方法计算出的相似度可能不同。
在本实施例的一些可选的实现方式中,可通过预设的关键词对各候选语料的相似度进行调整,即进行干预。可将一些关键词对应的候选语料与搜索信息的相似度调高,也可将其它的关键词对应的候选语料与搜索信息的相似度调低。
步骤204,通过预设的加权算法为不同相似度计算方法的计算结果设置权重并计算加权和。
在本实施例中,可采用Xgboost加权算法或线性加权算法。Xgboost为分布式加权的分位数算法。
步骤205,输出预定数目个相似度加权和最大的候选语料。
在本实施例中,可输出一个相似度加权和最大的候选语料,也可输出多个相似度加权和最大的候选语料。这里的输出可以指发给搜索引擎,搜索相关结果后反馈给终端设备。
继续参见图3,图3是根据本实施例的用于输出信息的方法的应用场景的一个示意图。在图3的应用场景中,服务器检测到识别搜索信息的意图失败后,对搜索信息进行分析,包括切词、NER(Named Entity Recognition,命名实体识别)、去口语等,得到切词序列。切词后如果词序列中包括屏蔽词则丢弃该搜索信息。如果不包括屏蔽词,则将词序列输入预先生成的语料库中查找各词对应的语料。还可将词序列中各词的同义词一起输入语料库进行查找。查找到的结果添加到候选语料集合中。然后再计算候选语料集合中各候选语料与搜索信息的相似度。可通过至少一种方法计算相似度,不同方法计算的结果不一定相同。然后对于每条候选语料,将它与搜索信息的不同类型的相似度进行加权计算。加权方法可以是Xgboost加权或线性加权。最后将相似度加权和最大的预定数目个语料输出。
进一步参考图4,其示出了用于输出信息的方法的又一个实施例的流程400。该用于输出信息的方法的流程400,包括以下步骤:
步骤401,将待改写的搜索信息切词得到词序列。
步骤402,从预先生成的语料库中搜索词序列对应的语料,添加到候选语料集合。
步骤403,通过至少一种相似度计算方法计算搜索信息与候选语料集合中各候选语料的相似度。
步骤401-403与步骤201-203基本相同,因此不再赘述。
步骤404,对词序列进行实体识别,识别出词序列中各词的类型。
在本实施例中,可通过NER技术对词序列进行实体识别。命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
步骤405,根据实体类型为词序列中各词赋予权重,对于词序列中的每个词,将该词的权重传递给该词对应的候选语料。
在本实施例中,为不同的实体类型设置权重。比如实体类的权重高,日期类的权重低等。然后将从语料库中搜索到的候选语料自动关联相应的权重。可选地,可为扩展的同义词也设置权重,可直接将扩展前的词的权重设置为扩展后的同义词的权重。或者重新进行NER识别实体类型再设置权重。
步骤406,根据各候选语料的权重修正搜索信息与候选语料集合中各候选语料的相似度。
在本实施例中,步骤203计算出相似度后,可用语料的权重进行修正。即某候选语料与搜索信息的修正后的相似度=原相似度*该语料的权重。从而突出某类型词的结果,提高召回率。
步骤407,通过预设的加权算法为不同相似度计算方法的计算结果设置权重并计算加权和。
步骤408,输出预定数目个相似度加权和最大的候选语料。
步骤407-408与步骤204-205基本相同,因此不再赘述。
从图4中可以看出,与图2对应的实施例相比,本实施例中的用于输出信息的方法的流程400体现了对搜索的语料赋予权重的步骤。由此,本实施例描述的方案可以引入进行更细致的相似度计算,从而进一步提高召回率。
进一步参考图5,作为对上述各图所示方法的实现,本公开提供了一种用于输出信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于输出信息的装置500包括:分析单元501、搜索单元502、匹配单元503、计算单元504和输出单元505。其中,分析单元501,被配置成将待改写的搜索信息切词得到词序列;搜索单元502,被配置成从预先生成的语料库中搜索词序列对应的语料,添加到候选语料集合;匹配单元503,被配置成通过至少一种相似度计算装置计算搜索信息与候选语料集合中各候选语料的相似度;计算单元504,被配置成通过预设的加权算法为不同相似度计算装置的计算结果设置权重并计算加权和;输出单元505,被配置成输出预定数目个相似度加权和最大的候选语料。
在本实施例中,用于输出信息的装置500的分析单元501、搜索单元502、匹配单元503、计算单元504和输出单元505的具体处理可以参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204和步骤205。
在本实施例的一些可选的实现方式中,分析单元501进一步被配置成:对词序列进行实体识别,识别出词序列中各词的类型;根据实体类型为词序列中各词赋予权重;对于词序列中的每个词,将该词的权重传递给该词对应的候选语料;根据各候选语料的权重修正搜索信息与候选语料集合中各候选语料的相似度。
在本实施例的一些可选的实现方式中,装置500还包括扩展单元(附图中未示出),被配置成:对词序列中各词进行同义词扩展,得到扩展词集合;从预先生成的语料库中搜索扩展词集合对应的语料,添加到候选语料集合。
在本实施例的一些可选的实现方式中,扩展单元进一步被配置成:对扩展词集合进行实体识别,识别出扩展词集合中各扩展词的类型;根据实体类型为扩展词集合中各扩展词赋予权重;对于扩展词集合中的每个扩展词,将该扩展词的权重传递给该扩展词对应的候选语料;根据各候选语料的权重修正搜索信息与候选语料集合中各候选语料的相似度。
在本实施例的一些可选的实现方式中,装置500还包括干预单元(附图中未示出),被配置成:通过预设的关键词对各候选语料的相似度进行调整。
在本实施例的一些可选的实现方式中,装置500还包括屏蔽单元(附图中未示出),被配置成:在切词后将词序列与预设的屏蔽词库进行匹配,如果匹配成功,则丢弃搜索信息,不再进行搜索。
在本实施例的一些可选的实现方式中,语料库通过如下步骤生成:通过预定规则对用户行为日志过滤以筛选出成功识别用户意图的数据记录;通过预先训练的生成对抗网络扩展出与数据记录语义相近的语料;为各语料创建用于查询的倒排索引并设置停用词。
下面参考图6,其示出了适于用来实现本公开的实施例的电子设备(例如图1中的服务器或终端设备)600的结构示意图。本公开的实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的终端设备/服务器仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图6中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开的实施例的方法中限定的上述功能。需要说明的是,本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:将待改写的搜索信息切词得到词序列;从预先生成的语料库中搜索词序列对应的语料,添加到候选语料集合;通过至少一种相似度计算方法计算搜索信息与候选语料集合中各候选语料的相似度;通过预设的加权算法为不同相似度计算方法的计算结果设置权重并计算加权和;输出预定数目个相似度加权和最大的候选语料。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括分析单元、搜索单元、匹配单元、计算单元和输出单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,分析单元还可以被描述为“将待改写的搜索信息切词得到词序列的单元”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (16)

1.一种用于输出信息的方法,包括:
对搜索信息进行意图识别,如果无法识别,则将所述搜索信息切词并过滤掉虚词和口语词后得到词序列;
从预先生成的语料库中搜索所述词序列对应的语料,添加到候选语料集合,其中,语料库的语料记录了关键词和意图的对应关系,通过预定规则对用户行为日志过滤以筛选出成功识别用户意图的数据记录,然后从数据记录中提取关键词和意图的对应关系;
通过至少一种相似度计算方法计算所述搜索信息与候选语料集合中各候选语料的相似度;
通过预设的加权算法为不同相似度计算方法的计算结果设置权重并计算加权和;
输出预定数目个相似度加权和最大的候选语料。
2.根据权利要求1所述的方法,其中,所述方法还包括:
对所述词序列进行实体识别,识别出所述词序列中各词的类型;
根据实体类型为所述词序列中各词赋予权重;
对于所述词序列中的每个词,将该词的权重传递给该词对应的候选语料;
根据各候选语料的权重修正所述搜索信息与候选语料集合中各候选语料的相似度。
3.根据权利要求1所述的方法,其中,所述方法还包括:
对所述词序列中各词进行同义词扩展,得到扩展词集合;
从预先生成的语料库中搜索所述扩展词集合对应的语料,添加到候选语料集合。
4.根据权利要求3所述的方法,其中,所述方法还包括:
对所述扩展词集合进行实体识别,识别出所述扩展词集合中各扩展词的类型;
根据实体类型为所述扩展词集合中各扩展词赋予权重;
对于所述扩展词集合中的每个扩展词,将该扩展词的权重传递给该扩展词对应的候选语料;
根据各候选语料的权重修正所述搜索信息与候选语料集合中各候选语料的相似度。
5.根据权利要求1-4之一所述的方法,所述方法还包括:
通过预设的关键词对各候选语料的相似度进行调整。
6.根据权利要求1-4之一所述的方法,其中,所述方法还包括:
在切词后将所述词序列与预设的屏蔽词库进行匹配,如果匹配成功,则丢弃所述搜索信息,不再进行搜索。
7.根据权利要求1-4之一所述的方法,其中,所述语料库通过如下步骤生成:
通过预定规则对用户行为日志过滤以筛选出成功识别用户意图的数据记录;
通过预先训练的生成对抗网络扩展出与所述数据记录语义相近的语料;
为各语料创建用于查询的倒排索引并设置停用词。
8.一种用于输出信息的装置,包括:
分析单元,被配置成对搜索信息进行意图识别,如果无法识别,则将所述搜索信息切词并过滤掉虚词和口语词后得到词序列;
搜索单元,被配置成从预先生成的语料库中搜索所述词序列对应的语料,添加到候选语料集合,其中,语料库的语料记录了关键词和意图的对应关系,通过预定规则对用户行为日志过滤以筛选出成功识别用户意图的数据记录,然后从数据记录中提取关键词和意图的对应关系;
匹配单元,被配置成通过至少一种相似度计算装置计算所述搜索信息与候选语料集合中各候选语料的相似度;
计算单元,被配置成通过预设的加权算法为不同相似度计算装置的计算结果设置权重并计算加权和;
输出单元,被配置成输出预定数目个相似度加权和最大的候选语料。
9.根据权利要求8所述的装置,其中,所述分析单元进一步被配置成:
对所述词序列进行实体识别,识别出所述词序列中各词的类型;
根据实体类型为所述词序列中各词赋予权重;
对于所述词序列中的每个词,将该词的权重传递给该词对应的候选语料;
根据各候选语料的权重修正所述搜索信息与候选语料集合中各候选语料的相似度。
10.根据权利要求8所述的装置,其中,所述装置还包括扩展单元,被配置成:
对所述词序列中各词进行同义词扩展,得到扩展词集合;
从预先生成的语料库中搜索所述扩展词集合对应的语料,添加到候选语料集合。
11.根据权利要求10所述的装置,其中,所述扩展单元进一步被配置成:
对所述扩展词集合进行实体识别,识别出所述扩展词集合中各扩展词的类型;
根据实体类型为所述扩展词集合中各扩展词赋予权重;
对于所述扩展词集合中的每个扩展词,将该扩展词的权重传递给该扩展词对应的候选语料;
根据各候选语料的权重修正所述搜索信息与候选语料集合中各候选语料的相似度。
12.根据权利要求8-11之一所述的装置,所述装置还包括干预单元,被配置成:
通过预设的关键词对各候选语料的相似度进行调整。
13.根据权利要求8-11之一所述的装置,其中,所述装置还包括屏蔽单元,被配置成:
在切词后将所述词序列与预设的屏蔽词库进行匹配,如果匹配成功,则丢弃所述搜索信息,不再进行搜索。
14.根据权利要求8-11之一所述的装置,其中,所述语料库通过如下步骤生成:
通过预定规则对用户行为日志过滤以筛选出成功识别用户意图的数据记录;
通过预先训练的生成对抗网络扩展出与所述数据记录语义相近的语料;
为各语料创建用于查询的倒排索引并设置停用词。
15.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201911213501.7A 2019-12-02 2019-12-02 用于输出信息的方法和装置 Active CN111078849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911213501.7A CN111078849B (zh) 2019-12-02 2019-12-02 用于输出信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911213501.7A CN111078849B (zh) 2019-12-02 2019-12-02 用于输出信息的方法和装置

Publications (2)

Publication Number Publication Date
CN111078849A CN111078849A (zh) 2020-04-28
CN111078849B true CN111078849B (zh) 2023-07-25

Family

ID=70312424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911213501.7A Active CN111078849B (zh) 2019-12-02 2019-12-02 用于输出信息的方法和装置

Country Status (1)

Country Link
CN (1) CN111078849B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111724770B (zh) * 2020-05-19 2022-04-01 中国电子科技网络信息安全有限公司 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN112380331A (zh) * 2020-11-16 2021-02-19 北京京东尚科信息技术有限公司 信息推送的方法和装置
CN114416940B (zh) * 2021-12-28 2023-04-18 北京百度网讯科技有限公司 表格问答中的短语泛化方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08328585A (ja) * 1995-05-31 1996-12-13 Sony Corp 自然言語処理装置および自然言語処理方法、並びに音声認識装置および音声認識方法
CN102841929A (zh) * 2012-07-19 2012-12-26 南京邮电大学 一种综合用户和项目评分及特征因素的推荐方法
CN105893615A (zh) * 2016-04-27 2016-08-24 厦门市美亚柏科信息股份有限公司 基于手机取证数据的机主特征属性挖掘方法及其系统
CN109101493A (zh) * 2018-08-01 2018-12-28 东北大学 一种基于对话机器人的智能购房助手

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7194455B2 (en) * 2002-09-19 2007-03-20 Microsoft Corporation Method and system for retrieving confirming sentences
US7668791B2 (en) * 2006-07-31 2010-02-23 Microsoft Corporation Distinguishing facts from opinions using a multi-stage approach
CN101315624B (zh) * 2007-05-29 2015-11-25 阿里巴巴集团控股有限公司 一种文本主题推荐的方法和装置
CN102056335B (zh) * 2009-11-06 2014-02-19 华为技术有限公司 移动搜索方法、装置和系统
CN106445920A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用句义结构特征的句子相似度计算方法
CN106776782B (zh) * 2016-11-21 2020-05-22 北京百度网讯科技有限公司 基于人工智能的语义相似度获取方法及装置
CN108717407B (zh) * 2018-05-11 2022-08-09 北京三快在线科技有限公司 实体向量确定方法及装置,信息检索方法及装置
CN110209810B (zh) * 2018-09-10 2023-10-31 腾讯科技(深圳)有限公司 相似文本识别方法以及装置
CN109213916A (zh) * 2018-09-14 2019-01-15 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109597992B (zh) * 2018-11-27 2023-06-27 浪潮金融信息技术有限公司 一种结合同义词词典和词嵌入向量的问句相似度计算方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08328585A (ja) * 1995-05-31 1996-12-13 Sony Corp 自然言語処理装置および自然言語処理方法、並びに音声認識装置および音声認識方法
CN102841929A (zh) * 2012-07-19 2012-12-26 南京邮电大学 一种综合用户和项目评分及特征因素的推荐方法
CN105893615A (zh) * 2016-04-27 2016-08-24 厦门市美亚柏科信息股份有限公司 基于手机取证数据的机主特征属性挖掘方法及其系统
CN109101493A (zh) * 2018-08-01 2018-12-28 东北大学 一种基于对话机器人的智能购房助手

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Proposed Architecture Diagrams for Analyzing Semantic Web Search Engine for E-Learning Environments;Awny Sayed等;International Journal of Computer Applications;第38-45页 *
基于LDA-wSVM模型的文本分类研究;李锋刚 等;计算机应用研究(第01期);第27-31页 *

Also Published As

Publication number Publication date
CN111078849A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
US20220214775A1 (en) Method for extracting salient dialog usage from live data
US10586155B2 (en) Clarification of submitted questions in a question and answer system
US9318027B2 (en) Caching natural language questions and results in a question and answer system
US9923860B2 (en) Annotating content with contextually relevant comments
CN107301170B (zh) 基于人工智能的切分语句的方法和装置
CN111522927B (zh) 基于知识图谱的实体查询方法和装置
CN111078849B (zh) 用于输出信息的方法和装置
WO2021135455A1 (zh) 语义召回方法、装置、计算机设备及存储介质
CN109858045B (zh) 机器翻译方法和装置
CN111324700A (zh) 资源召回方法、装置、电子设备及计算机可读存储介质
CN114840671A (zh) 对话生成方法、模型的训练方法、装置、设备及介质
CN113660541A (zh) 新闻视频的摘要生成方法及装置
CN112182255A (zh) 用于存储媒体文件和用于检索媒体文件的方法和装置
CN111428011B (zh) 词语的推荐方法、装置、设备及存储介质
CN110059172B (zh) 基于自然语言理解的推荐答案的方法和装置
US9747891B1 (en) Name pronunciation recommendation
CN114298007A (zh) 一种文本相似度确定方法、装置、设备及介质
US11437038B2 (en) Recognition and restructuring of previously presented materials
CN111382262B (zh) 用于输出信息的方法和装置
CN110895587A (zh) 用于确定目标用户的方法和装置
CN112148751B (zh) 用于查询数据的方法和装置
CN111382365B (zh) 用于输出信息的方法和装置
US11379669B2 (en) Identifying ambiguity in semantic resources
CN109857838B (zh) 用于生成信息的方法和装置
CN110543491A (zh) 搜索方法、装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant