CN116561250A - 用于实现智能化语音查询的方法和装置 - Google Patents

用于实现智能化语音查询的方法和装置 Download PDF

Info

Publication number
CN116561250A
CN116561250A CN202210102621.5A CN202210102621A CN116561250A CN 116561250 A CN116561250 A CN 116561250A CN 202210102621 A CN202210102621 A CN 202210102621A CN 116561250 A CN116561250 A CN 116561250A
Authority
CN
China
Prior art keywords
query
result output
user
input
query result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210102621.5A
Other languages
English (en)
Inventor
王冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SoundHound Inc
Original Assignee
SoundHound Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoundHound Inc filed Critical SoundHound Inc
Priority to CN202210102621.5A priority Critical patent/CN116561250A/zh
Priority to US17/654,635 priority patent/US20230237056A1/en
Publication of CN116561250A publication Critical patent/CN116561250A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2425Iterative querying; Query formulation based on the results of a preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本申请提供了用于实现智能化语音查询的方法和装置。用于实现智能化语音查询的装置包括:接口电路,用于接收来自用户的语音查询输入;以及处理器,该处理器与接口电路耦合并且被配置用于:对语音查询输入进行自动语音识别和自然语言理解处理以生成结构化查询数据;基于输入适配规则对结构化查询数据进行修改以得到经修改的结构化查询数据;将经修改的结构化查询数据输出给内容提供服务器;并且从内容提供服务器接收与经修改的结构化查询数据相对应的查询结果输出。

Description

用于实现智能化语音查询的方法和装置
技术领域
本公开的实施例总体上涉及语音查询,并且更具体地涉及用于实现智能化语音查询的方法和装置。
背景技术
语音识别和自然语言理解系统在当今社会中已变得非常普遍。越来越多的日常设备(例如电器、车辆、移动设备等)配备有语音识别和自然语言理解能力。例如,可以在这些日常设备上安装智能语音助手以识别从用户接收的语音查询输入,并提供相应的查询结果输出。通常,智能语音助手自身可能不具有内容提供能力,而是借助于内容提供商来提供针对用户的语音查询的查询结果。具体而言,智能语音助手在接收到来自用户的语音查询输入时,会对语音查询输入进行语音识别和自然语言理解处理以生成结构化查询数据,然后将结构化查询数据输出到内容提供商,由内容提供商进行查询操作并将查询结果返回给智能语音助手,进而反馈给用户。
基于这种内容查询方式,用户所得到的查询结果基本上是由内容提供商控制。也就是说,用户在通过智能语音助手进行语音查询时的体验主要是由内容提供商提供和推送信息的方式来决定的。而智能语音助手的功能主要还是进行语音识别和自然语言处理,因而智能语音助手对于用户体验的影响非常有限。
实际上,对于语音查询而言,智能语音助手是直接与用户进行交互的装置,加强智能语音助手对用户体验的影响有利于在语音查询过程中为用户提供更直接的智能化服务。因此,期望开发一种技术,能够使得智能语音助手更多地参与到针对用户的语音查询来提供和推送查询结果和相关信息的过程中,增强语音查询的用户体验。
发明内容
本公开的一方面提供了一种用于实现智能化语音查询的装置,包括:接口电路,用于接收来自用户的语音查询输入;以及处理器,该处理器与接口电路耦合并且被配置用于:对语音查询输入进行自动语音识别和自然语言理解处理以生成结构化查询数据;基于输入适配规则对结构化查询数据进行修改以得到经修改的结构化查询数据;将经修改的结构化查询数据输出给内容提供服务器;并且从内容提供服务器接收与经修改的结构化查询数据相对应的查询结果输出。
本公开的另一方面提供了一种用于实现智能化语音查询的方法,包括:接收来自用户的语音查询输入;对语音查询输入进行自动语音识别和自然语言理解处理以生成结构化查询数据;基于输入适配规则对结构化查询数据进行修改以得到经修改的结构化查询数据;将经修改的结构化查询数据输出给内容提供服务器;并且从内容提供服务器接收与经修改的结构化查询数据相对应的查询结果输出。
本公开的又一方面提供了一种存储有代码的计算机可读介质,所述代码在由处理器执行时使得所述处理器实现上述用于实现智能化语音查询的方法。
附图说明
参考以下描述和附图将更好地理解本申请的具体特征、方面和优点,其中:
图1示出了根据本公开的一些实施例的由语音识别和自然语言处理系统和内容提供服务器构成的语音查询系统的总体构架的框图。
图2示出了根据本公开的一些实施例的用于实现智能化语音查询的装置的示意性结构框图。
图3示出了根据本公开的一些实施例的由语音识别和自然语言处理系统和内容提供服务器构成的语音查询系统的总体构架的框图。
图4示出了根据本公开的一些实施例的用于实现智能化语音查询的方法的流程图。
图5示出了可以实现智能化语音查询方法的各种组件的示例计算机系统的框图。
具体实施方式
将使用本领域技术人员通常采用的术语来描述说明性实施例的各个方面,以将本公开的实质传达给本领域其他技术人员。然而,对于本领域技术人员显而易见的是,可以使用所描述方面的部分来实现许多替代实施例。出于说明的目的,提供了具体的数字、材料和配置,以便提供对说明性实施例的透彻理解。然而,对于本领域技术人员显而易见的是,可以在没有具体细节的情况下实现替代实施例。在其他情况下,可以省略或简化众所周知的特征,以避免模糊说明性实施例。
此外,各种操作将以最有助于理解说明性实施例的方式被描述为依次进行的多个离散操作;然而,描述的顺序不应被解释为暗示这些操作必须依赖于顺序。特别是,这些操作不需要按照呈现的顺序执行。
在本文中重复使用短语“在一些实施例中”。该短语通常不是指相同的实施例;但是也可能指相同的实施例。除非上下文另有规定,否则术语“包含”、“具有”和“包括”是同义词。短语“A或B”和“A/B”表示“(A)、(B)或(A和B)”。
智能语音助手被越来越多地安装在日常设备(例如电器、车辆、移动设备等)上以提供智能化的语音查询服务。在本公开中,以安装在车辆上的智能语音助手为示例来描述所提出的技术方案,但是应理解,本公开中所描述的技术方案可以很容易地应用于被安装在其它日常设备上的智能语音助手。
通常,智能语音助手借助于内容提供商来提供针对用户的语音查询的查询结果。基于这种内容查询方式,用户所得到的查询结果基本上是由内容提供商控制。也就是说,用户在通过智能语音助手进行语音查询时的体验主要是由内容提供商提供和推送信息的方式来决定的。例如,当用户向安装在车辆内的智能语音助手发出语音查询“请告诉我5英里以内的餐馆”时,该语音查询经过智能语音助手的语音识别和自然语言处理之后将被提供给与该车辆关联的诸如Yelp或大众点评之类的内容提供商,然后Yelp或大众点评将根据其内部设定的内容查询、过滤、排序、输出等规则来向用户提供Yelp或大众点评推荐的5英里内的餐馆的列表。因而,用户通过语音查询所得到的餐馆的列表中所包含的餐馆名、餐馆的类型、餐馆的排序或附加的广告推送均是由诸如Yelp或大众点评之类的内容提供商决定的。在这种情况下,智能语音助手只是进行语音识别和自然语言处理,不参与到具体查询过程中,因此对于内容提供商提供给用户的查询结果输出基本没有控制权。
在配备有智能语音助手的日常设备中,智能语音助手是直接与用户进行交互的装置,用户所发出的每个语音请求都是首先被智能语音助手接收并理解的,因而在智能语音助手中进行对用户的行为模式(user’s profile)的学习和推测是非常合适的。也就是说,智能语音助手可能是最了解用户的行为模式的装置之一,因此,加强智能语音助手对用户查询体验的影响有利于在语音查询过程中为用户提供更直接的智能化服务。鉴于此方面的考虑,本申请提出了以下技术方案:当智能语音助手接收到用户的语音查询输入时,可以根据预先设定的输入适配规则对语音查询进行修改,然后再将经修改的查询数据提供给内容提供商,从而提供更加智能化的语音查询服务。
图1示出了根据本公开的一些实施例的由语音识别和自然语言处理系统和内容提供服务器构成的语音查询系统100的总体构架的框图。如图1所示,该语音查询系统100可以包括自动语音识别(ASR)处理器102、自然语言理解(NLU)解析服务器104、自然语言生成(NLG)处理器106以及内容提供服务器108。其中,ASR处理器102、NLU解析服务器104和NLG处理器106构成了语音识别和自然语言处理系统。智能语音助手可以通过与该语音识别和自然语言处理系统的交互来实现ASR、NLU和NLG的功能。
例如,ASR处理器102可以将所接收的语音音频(例如语音查询“王府井附近的餐厅”)转换为被称为转录的文本串(例如转录“王府井附近的餐厅”)。然后NLU解析服务器104可以执行对转录的自然语言理解处理,以从转录“王府井附近的餐厅”中提取用户的意图,从而生成能够表达用户的意图的结构化查询数据,并将该结构化查询数据输出给内容提供服务器108来请求内容提供服务器108提供查询结果。内容提供服务器108所提供的查询结果可以进一步由NLG处理器进行处理,以生成反馈给用户的语音查询结果输出。例如,对于转录“王府井附近的餐厅”,NLU解析服务器104可以生成如下结构化查询数据,并将该结构化查询数据提供给内容提供服务器108(例如,美团)。
根据本公开的一些实施例,当用户向智能语音助手发出语音查询输入时,由ASR处理器102和NLU解析服务器104对该语音查询输入进行语音识别和自然语言理解处理以生成结构化查询数据,该结构化查询数据可以基于输入适配规则被修改,然后经修改的结构化查询数据被输出到内容提供服务器。内容提供服务器基于经修改的结构化查询数据并根据其内部设定的内容查询、过滤、排序、输出等规则生成查询结果输出。该查询结果输出可以以文本的形式被呈现给用户,或者更优选地,该查询结果输出可以被提供给NLG处理器106,以由NLG处理器106生成用于反馈给用户的语音查询结果输出。
根据本公开的一些实施例,输入适配规则可以包括基于对用户的行为模式的学习和推测而设定的规则。例如,当智能语音助手接收到来自用户的语音查询输入“请告诉我5英里以内的餐馆”时,智能语音助手不是直接将语音查询输入“请告诉我5英里以内的餐馆”转换为内容提供服务器可理解的结构化查询数据并将该结构化查询数据提供给内容提供服务器,而是在对该语音查询输入“请告诉我5英里以内的餐馆”进行语音识别和自然语言理解之后,根据智能语音助手所学习和推测得到的该用户的行为模式对结构化查询数据进行修改,然后将经修改的结构化查询数据提供给内容提供服务器,以得到更加符合该用户的日常行为模式的查询结果输出。例如,当智能语音助手通过对该用户的行为模式的学习而推测到该用户不吃辣并且日常消费水平为每餐低于100元时,智能语音助手可以将结构化查询数据修改为增加了“不吃辣”和“人均消费低于100元”的约束条件的经修改的结构化查询数据。从而,当经修改的结构化查询数据被提供给内容提供服务器时,内容提供服务器将返回5英里以内的人均消费低于100元且口味清淡的餐馆列表。
在这些实施例中,智能语音助手根据基于对用户的行为模式的学习和推测而设定的规则对语音查询输入进行了修改,从而使得内容提供服务器返回给用户的查询结果输出更符合用户的日常行为模式,可以为用户提供更加个性化的查询服务。
此外,为了更精准地提供个性化的查询服务,智能语音助手也可以在接收到来自用户的语音查询输入时,首先根据智能语音助手所学习和推测得到的该用户的行为模式与用户进行语音对话来进一步确认用户的具体需求,然后基于用户所确认的具体需求来修改将要提供给内容提供服务器的结构化查询数据。例如,当智能语音助手接收到用户的语音查询输入“请告诉我5英里以内的餐馆”时,智能语音助手可以向用户询问“是否不吃辣”和“需要人均消费低于100元吗”,待用户确认之后再对结构化查询数据进行修改。
另外,智能语音助手也可以根据用户的行为模式选择向用户推荐用户可能感兴趣的内容。例如,当用户向智能语音助手发出语音查询“当前北京的天气如何”时,智能语音助手可以根据用户的行为模式修改语音查询以提供额外的信息。例如,如果智能语音助手了解到该用户经常关注天气情况并且乐意接收额外信息,智能语音助手可以生成附加的查询“北京未来7天的天气如何”,然后将用户原本所发出的语音查询“当前北京的天气如何”和附加的查询“北京未来7天的天气如何”一起发送给内容提供服务器。这样,用户将不仅接收到关于北京当前若干小时内的天气情况的信息,还将接收到关于北京未来7天的天气情况的信息。反之,如果智能语音助手了解到该用户经常拒绝接收额外信息,则智能语音助手可以不修改用户原本所发出的语音查询“当前北京的天气如何”,或者可以根据当前时间(例如下午3点左右)将用户原本所发出的语音查询“当前北京的天气如何”修改为更具体的查询“北京今天下午3点至5点的天气情况”。
根据本公开的一些实施例,输入适配规则还可以包括基于与语音查询输入相关联的商业推荐而设定的规则。例如,智能语音助手接收到来自用户的语音查询输入“附近的咖啡馆”,并且智能语音助手根据该用户的日常行为模式了解到该用户经常去星巴克咖啡馆和瑞幸咖啡馆。由于星巴克咖啡馆与智能语音助手的提供商或安装智能语音助手的车辆的制造商有更多的商业合作,智能语音助手可以将结构化查询数据修改为增加了“优选星巴克咖啡馆”的约束条件的经修改的结构化查询数据。从而,当经修改的结构化查询数据被提供给内容提供服务器时,内容提供服务器将返回附近的咖啡馆列表,其中星巴克咖啡馆将被排在列表的顶部。
在另一示例中,当智能语音助手经常接收到来自用户的语音查询输入“芝加哥公牛队的得分”时,智能语音助手可以推断该用户可能是芝加哥公牛队的球迷。因此,当智能语音助手接收到来自用户的语音查询输入“芝加哥公牛队的得分”时,智能语音助手可以将结构化查询数据修改为增加了“芝加哥公牛队队服推荐”的约束条件的经修改的结构化查询数据。从而,当经修改的结构化查询数据被提供给内容提供服务器时,内容提供服务器将不仅返回芝加哥公牛队的得分,还返回关于芝加哥公牛队队服的产品推荐列表。
需要注意的是,在上述这些示例中,智能语音助手在根据基于与语音查询输入相关联的商业推荐而设定的规则来修改结构化查询数据时,也需要考虑用户的日常行为模式和用户对于推送信息的反馈,以避免做出用户不感兴趣的推荐而影响用户体验。
根据本公开的一些实施例,输入适配规则还可以包括用于将用户的语音查询输入适配为内容提供服务器可理解的结构化查询数据的规则。例如,用户提供的语音查询输入可能比较复杂、不够清楚或者不完整。在这种情况下,智能语音助手在对语音查询输入进行语音识别和自然语言理解处理之后,可以根据智能语音助手对语音查询输入的理解和所学习的用户的日常行为模式,将语音查询输入适配为内容提供服务器可理解的结构化查询数据。
例如,用户向智能语音助手发出语音查询“请告诉我5英里以内的餐馆,法国和日本除外,现在仍在开放”。这样的语音查询输入中包括较难理解的否定表述(“法国和日本除外”)以及不清楚的表述(“现在仍在开放”)。如果该语音查询输入直接被转换为结构化查询数据并被提供给内容提供服务器,内容提供服务器可能会由于不能正确理解用户的需求而输出不符合用户要求的推荐列表。在这种情况下,智能语音助手可以基于其强大的语音识别和自然语言理解能力并结合其对用户的行为模式的学习和推测,将上述复杂且不清楚的语音查询输入适配为便于内容提供服务器理解的结构化查询数据,例如与查询“5公里以内的中国或韩国餐馆,且开放时间为11:00到22:00”对应的结构化查询数据。
基于以上描述,本公开提出了可以在智能语音助手中基于各种可能的输入适配规则对语音查询输入进行修改以提供更加智能化的查询服务,进一步改善用户体验。根据本公开的一些实施例,针对语音查询输入的修改可以发生在智能语音助手对该语音查询输入进行了语音识别和自然语言理解之后,并且可以在如图1所示的NLU解析服务器104中被实现。在这种情况下,例如,可以在NLU解析服务器104中内置存储各种输入适配规则的动态数据库。
图2示出了根据本公开的一些实施例的用于实现智能化语音查询的装置200的示意性结构框图。该装置200可以包括ASR处理器202、NLU解析服务器204和NLG处理器206,其中在NLU解析服务器204中可以内置有动态数据库(DDB)208,或者DDB 208也可以与NLU解析服务器204分开设置,NLU解析服务器204通过网络访问动态数据库208。具体而言,在该动态数据库中,可以基于对用户的行为模式的学习和推测,来生成和动态更新有关用户的行为模式的数据以及基于用户的行为模式设定的查询数据修改规则;可以基于与智能语音助手的提供商或安装智能语音助手的车辆的制造商建立商业合作的商家的信息生成和动态更新商业推荐规则;还可以存储和动态更新与适配语音查询输入相关联的各种输入适配规则。
根据本申请的一些实施例,输入适配规则可以包括基于对用户的行为模式的学习和推测而设定的规则。例如,对于来自用户的语音查询输入“王府井附近的餐厅”,根据所学习的该用户的行为模式,智能语音助手知道该用户经常选择人均消费在50至100元的餐厅,因而输入适配规则可以是在用户原本的查询输入的基础上增加关于价格区间的查询过滤标签(query filter)。基于该输入适配规则,智能语音助手可以将原本的语音查询输入“王府井附近的餐厅”修改为“王府井附近的人均消费50至100元的餐厅”,即可以将关于价格区间的查询过滤标签添加到与“王府井附近的餐厅”相对应的结构化查询数据中,以生成与“王府井附近的人均消费50至100元的餐厅”相对应的如下经修改的结构化查询数据,其中斜体部分是所添加的关于价格区间的查询过滤标签。
根据本申请的一些实施例,输入适配规则可以包括基于与用户的语音查询输入相关联的商业推荐而设定的规则。例如,对于来自用户的语音查询输入“王府井附近的餐厅”,根据所设定的商业推荐规则,智能语音助手可以在用户原本的查询输入的基础上增加关于推荐或不推荐餐厅的查询过滤标签。基于该输入适配规则,智能语音助手可以将原本的语音查询输入“王府井附近的餐厅”修改为“王府井附近的餐厅,不选外婆家”,即可以将关于不推荐内容的查询过滤标签添加到结构化查询数据中,以生成如下的经修改的结构化查询数据,其中斜体部分是所添加的关于不推荐内容的查询过滤标签。
另外,需要注意的是,可以根据需要同时考虑多方面的因素来设定输入适配规则。根据一些实施例,可以同时考虑用户的行为模式和商业推荐来设定输入适配规则。例如,对于来自用户的语音查询输入“王府井附近的餐厅”,根据所学习的该用户的行为模式和所设定的商业推荐规则,智能语音助手可以是在用户原本的查询输入的基础上增加关于价格区间的查询过滤标签以及关于推荐或不推荐餐厅的查询过滤标签。基于该输入适配规则,智能语音助手可以将原本的语音查询输入“王府井附近的餐厅”修改为“王府井附近的人均消费在50至100元之间的餐厅,不选外婆家”,即可以将关于价格区间的查询过滤标签和关于不推荐内容的查询过滤标签添加到结构化查询数据中,以生成如下的经修改的结构化查询数据,其中斜体部分是所添加的关于不推荐内容的查询过滤标签。
如上所述,可以根据用户的日常行为模式和商业推荐规则等方面的考虑因素来设置相关的查询过滤标签,然后通过合适的算法对这些查询过滤标签进行匹配和组合以生成合适的输入适配规则。这些输入适配规则可以被存储在动态数据库中,并且可以根据需要被动态更新。另外,可以根据需要和技术发展,选择用于匹配和组合查询过滤标签以生成输入适配规则的具体算法,本申请不对该具体算法进行限定。
NLU解析服务器204在对来自用户的语音查询输入进行自然语音理解而生成结构化查询数据之后,可以基于所理解的语音查询输入与动态数据库208中所存储的各种规则数据进行匹配,得到合适的输入适配规则,然后基于所得到的输入适配规则对结构化查询数据进行修改,并将经修改的结构化查询数据输出到内容提供服务器。注意,在本公开中所提到的对结构化查询数据进行修改可以包括改写、替换结构化查询数据、或者删减或添加结构化查询数据等任何合理的修改方式。
根据本公开的一些实施例,不仅可以通过在输入侧利用输入适配规则对语音查询输入进行修改来提供更加智能化的语音查询服务,而且可以在输出侧利用输出适配规则对语音查询结果输出进行修改,从而进一步改善用户体验。
如图2所示,当智能语音助手接收到内容提供服务器所提供的查询结果输出时,可以在NLG处理器206中对查询结果输出进行自然语言生成处理,以生成用于反馈给用户的语音查询结果输出。通常,智能语音助手可以将经过自然语言生成处理所生成的语音查询结果直接反馈给用户,但是,为了提供更加智能化的语音查询服务,智能语音助手可以基于输出适配规则对语音查询结果输出进行修改,然后将经修改的语音查询结果输出反馈给用户。
与输入适配规则相类似,输出适配规则也可以包括基于对用户的行为模式的学习和推测而设定的规则、基于与语音查询结果输出相关联的商业推荐而设定的规则等等。例如,智能语音助手可以根据用户的行为模式对语音查询结果输出进行过滤或排序,以输出更加符合用户的日常行为模式的查询结果;或者智能语音助手可以根据商业推荐需要并且在考虑用户的日常行为模式的同时对语音查询结果输出进行过滤或排序,以输出同时符合商业推荐需要和用户的日常行为模式的查询结果。关于输出适配规则的示例,可以参考以上对类似的输入适配规则示例的讨论,这里不再进行详细描述。并且,类似地,输出适配规则可以被存储在动态数据库中,该动态数据库可以被内置在NLG处理器206中或者由NLG处理器206通过网络进行访问。
此外,由于智能语音助手在输入侧对语音查询输入进行了修改,所以内容提供服务器基于经修改的结构化查询数据而提供的查询结果输出可能与用户原本的语音查询输入不匹配。例如,用户原本的语音查询输入为“请告诉我附近的咖啡馆”,智能语音助手根据商业推荐需要和用户的日常行为模式将该查询修改为了“请告诉我附近的星巴克咖啡馆”,那么内容提供服务器所提供的查询结果输出将可能是“附近的星巴克咖啡馆有”+“附近星巴克咖啡馆的列表”。为了使反馈给用户的查询结果输出与用户原本的语音查询输入保持一致,NLG处理器206可以基于语音查询输入对所生成的语音查询结果输出进行修改,以生成与语音查询输入相匹配的语音查询结果输出。例如,NLG处理器206可以将语音查询结果输出修改为“附近的咖啡馆有”+“附近星巴克咖啡馆的列表”。
根据本公开的一些实施例,智能语音助手还可以将语音查询输入提供给两个或更多个内容提供服务器,相应地得到两个或更多个查询结果输出,然后基于预先设定的输出整合规则对这些查询结果输出进行整合,以生成经整合的查询结果输出作为用于反馈给用户的查询结果输出。
图3示出了根据本公开的一些实施例的由语音识别和自然语言处理系统和内容提供服务器构成的语音查询系统300的总体构架的框图。如图3所示,NLU解析服务器304对来自ASR处理器302的转录进行自然语言理解处理以生成结构化查询数据,并将结构化查询数据输出给两个内容提供服务器308和310。该结构化查询数据可以是基于以上实施例中所描述的输入适配规则进行修改后的结构化查询数据。内容提供服务器308和310与NLG处理器306耦接,并且分别将第一查询结果输出和第二查询结果输出提供给NLG处理器306。在NLG处理器306中,可以基于预先设定的输出整合规则对第一查询结果输出和第二查询结果输出进行整合,以生成经整合的查询结果输出。然后,NLG处理器306可以对经整合的查询结果输出进行自然语言生成处理,以生成用于反馈给用户的语音查询结果输出。
与输入适配规则和输出适配规则类似,输出整合规则也可以包括基于对用户的行为模式的学习和推测而设定的规则、基于与查询结果输出相关联的商业推荐而设定的规则等等。例如,智能语音助手可以根据用户的行为模式对第一查询结果输出和第二查询结果输出的总和进行过滤或排序,以输出更加符合用户的日常行为模式的查询结果;或者智能语音助手可以根据商业推荐需要并且在考虑用户的日常行为模式的同时对第一查询结果输出和第二查询结果输出的总和进行过滤或排序,以输出同时符合商业推荐需要和用户的日常行为模式的查询结果。关于输出整合规则的示例,可以参考以上对类似的输入适配规则示例的讨论,这里不再进行详细描述。并且,类似地,输出整合规则可以被存储在动态数据库中,该动态数据库可以被内置在NLG处理器306中或者由NLG处理器306通过网络进行访问。
总地来说,本公开提出了在智能语音助手中基于预先设定的输入适配规则对语音查询输入进行修改以提供更加智能化的查询服务,进一步改善用户体验。此外,本公开的一些实施例还提出基于预先设定的输出适配规则对语音查询结果输出进行修改以及基于预先设定的输出整合规则对来自多个内容提供服务器的查询结果输出进行整合,从而进一步优化语音查询服务。
图4示出了根据本公开的一些实施例的用于实现智能化语音查询的方法400的流程图。该方法400可以由智能语音助手来实现,并且包括操作410至440。
在操作410处,智能语音助手可以对来自用户的语音查询输入进行自动语音识别和自然语言理解处理以生成结构化查询数据。
在操作420处,智能语音助手可以基于输入适配规则对结构化查询数据进行修改以得到经修改的结构化查询数据。
在一些实施例中,输入适配规则可以包括基于对用户的行为模式的学习和推测而设定的规则。
在一些实施例中,输入适配规则可以包括基于与语音查询输入相关联的商业推荐而设定的规则。
在一些实施例中,输入适配规则可以包括用于将用户的语音查询输入适配为内容提供服务器可理解的结构化查询数据的规则。
在操作430处,智能语音助手可以将经修改的结构化查询数据输出给内容提供服务器。
在操作440处,智能语音助手可以从内容提供服务器接收与经修改的结构化查询数据相对应的查询结果输出。
在一些实施例中,上述内容提供服务器可以被称为第一内容提供服务器,从该第一内容提供服务器接收的查询结果输出可以被称为第一查询结果输出,并且上述方法400还可以包括:将经修改的结构化查询数据输出给第二内容提供服务器;从第二内容提供服务器接收与经修改的结构化查询数据相对应的第二查询结果输出;基于输出整合规则对第一查询结果输出和第二查询结果输出进行整合,以生成经整合的查询结果输出作为查询结果输出。
在一些实施例中,输出整合规则可以包括基于对用户的行为模式的学习和推测而设定的规则。
在一些实施例中,输出整合规则可以包括基于与查询结果输出相关联的商业推荐而设定的规则。
在一些实施例中,上述方法还可以包括:对查询结果输出进行自然语言生成处理以生成用于反馈给用户的语音查询结果输出。
在一些实施例中,上述方法还可以包括:基于语音查询输入对语音查询结果输出进行修改,以生成与语音查询输入相匹配的语音查询结果输出。
在一些实施例中,上述方法还可以包括:在语音查询结果输出被反馈给用户之前,基于输出适配规则对语音查询结果输出进行修改。
在一些实施例中,输出适配规则可以包括基于对用户的行为模式的学习和推测而设定的规则。
在一些实施例中,输出适配规则可以包括基于与语音查询结果输出相关联的商业推荐而设定的规则。
图5示出了可以实现图4的方法400的示例计算机系统的框图。计算机系统510通常包括至少一个处理器514,该至少一个处理器514通过总线子系统512与多个外围设备进行通信。这些外围设备可以包括存储子系统524(包括例如存储器设备和文件存储子系统)、用户界面输入设备522、用户界面输出设备520、和网络接口子系统516。输入和输出设备允许用户与计算机系统510进行交互。网络接口子系统516提供到外部网络的接口,并且被耦合到其他计算机系统中的相应接口设备。
用户界面输入设备522可以包括键盘、指点设备(例如,鼠标、轨迹球、触摸板、或图形输入板)、扫描仪、合并到显示器中的触摸屏、音频输入设备(例如,语音识别系统)、麦克风、和其他类型的输入设备。通常,术语“输入设备”的使用旨在包括将信息输入至计算机系统510中或通信网络上的所有可能类型的设备和方式。用户界面输入设备522可以用作本申请中的接口电路,用于接收来自用户的语音查询输入,并将所接收的语音查询输入提供给处理器514以由处理器514执行根据本申请的实施例的智能化语音查询方法。
用户界面输出设备520可以包括显示子系统、打印机、传真机、或非可视显示器(例如,音频输出设备)。显示子系统可以包括阴极射线管(CRT)、平板设备(例如,液晶显示器(LCD))、投影设备、或用于产生可见图像的一些其他机制。显示子系统还可以提供非可视显示,例如通过音频输出设备。通常,术语“输出设备”的使用旨在包括将信息从计算机系统510输出至用户或另一机器或计算机系统的所有可能类型的设备和方式。
存储子系统524存储提供本文描述的一些或所有操作的功能的程序和数据结构。这些操作可以由软件模块来实现,软件模块通常由处理器514单独执行或与其他处理器组合执行。
存储子系统中使用的存储器526可以包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)530和存储固定指令的只读存储器(ROM)532。文件存储子系统528可以为程序和数据文件提供持久存储,并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移除介质、CD-ROM驱动器、光驱动器、或可移除介质盒。实现特定实施例的功能的模块可以由文件存储子系统528存储在存储子系统524中,或存储在处理器可访问的其他机器中。
总线子系统512提供用于使计算机系统510的各种组件和子系统按预期彼此进行通信的机制。虽然总线子系统512被示意性地示出为单个总线,但是总线子系统的替代实施例可以使用多个总线。
计算机系统510可以是各种类型的,包括工作站、服务器、计算集群、刀片服务器、服务器群、或任意其他数据处理系统或计算设备。由于计算机和网络的不断变化的性质,图5中描绘的计算机系统510的描述仅旨在作为用于说明各种实施例的具体示例。计算机系统510的许多其他配置可以具有比图5中描绘的计算机系统更多或更少的组件。
在本公开中已经描述了用于实现智能化语音查询的各种实施例。所公开的技术可以被实现为方法、装置或制品(存储代码的非暂时性计算机可读介质)。所公开的技术的装置实现方式包括耦合到存储器的一个或多个处理器。存储器加载有执行各种操作的计算机指令。所公开的技术的制品实现方式包括存储代码的非暂时性计算机可读介质(CRM),如果由一个或多个计算机执行,则该代码将使一个或多个计算机执行各种操作。装置实现方式和CRM实现方式能够执行下面描述的任何方法实现方式。
出于图示和描述的目的给出了前面的描述。不意图是穷尽性的或者将本发明限制到所公开的精确形式。根据以上教导,很多变形和变化是可能的。另外,应该注意的是,前面提到的替代实施例中的任意实施例或所有实施例可以用在形成本发明的附加混合实施例所需要的任意组合中。
另外,尽管已经描述并示出了本发明的具体实施例,但是本发明不限于所描述和示出的部分的具体形式或布置。本发明的范围由所附权利要求、在不同申请中递交的任何未来的权利要求、以及它们的等同物限定。

Claims (25)

1.一种用于实现智能化语音查询的装置,包括:
接口电路,用于接收来自用户的语音查询输入;以及
处理器,该处理器与所述接口电路耦合并且被配置用于:
对所述语音查询输入进行自动语音识别和自然语言理解处理以生成结构化查询数据;
基于输入适配规则对所述结构化查询数据进行修改以得到经修改的结构化查询数据;
将所述经修改的结构化查询数据输出给内容提供服务器;并且
从所述内容提供服务器接收与所述经修改的结构化查询数据相对应的查询结果输出。
2.如权利要求1所述的装置,其中,所述输入适配规则包括基于对所述用户的行为模式的学习和推测而设定的规则。
3.如权利要求1所述的装置,其中,所述输入适配规则包括基于与所述语音查询输入相关联的商业推荐而设定的规则。
4.如权利要求1所述的装置,其中,所述输入适配规则包括用于将所述用户的所述语音查询输入适配为所述内容提供服务器可理解的结构化查询数据的规则。
5.如权利要求1所述的装置,其中,所述内容提供服务器为第一内容提供服务器,从所述第一内容提供服务器接收的所述查询结果输出为第一查询结果输出,并且所述处理器还被配置用于:
将所述经修改的结构化查询数据输出给第二内容提供服务器;
从所述第二内容提供服务器接收与所述经修改的结构化查询数据相对应的第二查询结果输出;
基于输出整合规则对所述第一查询结果输出和所述第二查询结果输出进行整合,以生成经整合的查询结果输出作为所述查询结果输出。
6.如权利要求5所述的装置,其中,所述输出整合规则包括基于对所述用户的行为模式的学习和推测而设定的规则。
7.如权利要求5所述的装置,其中,所述输出整合规则包括基于与所述查询结果输出相关联的商业推荐而设定的规则。
8.如权利要求1至7中任一项所述的装置,其中,所述处理器还被配置用于:对所述查询结果输出进行自然语言生成处理以生成用于反馈给所述用户的语音查询结果输出。
9.如权利要求8所述的装置,其中,所述处理器还被配置用于:基于所述语音查询输入对所述语音查询结果输出进行修改,以生成与所述语音查询输入相匹配的语音查询结果输出。
10.如权利要求8所述的装置,其中,所述处理器还被配置用于:在所述语音查询结果输出被反馈给所述用户之前,基于输出适配规则对所述语音查询结果输出进行修改。
11.如权利要求10所述的装置,其中,所述输出适配规则包括基于对所述用户的行为模式的学习和推测而设定的规则。
12.如权利要求10所述的装置,其中,所述输出适配规则包括基于与所述语音查询结果输出相关联的商业推荐而设定的规则。
13.一种用于实现智能化语音查询的方法,包括:
对来自用户的语音查询输入进行自动语音识别和自然语言理解处理以生成结构化查询数据;
基于输入适配规则对所述结构化查询数据进行修改以得到经修改的结构化查询数据;
将所述经修改的结构化查询数据输出给内容提供服务器;并且
从所述内容提供服务器接收与所述经修改的结构化查询数据相对应的查询结果输出。
14.如权利要求13所述的方法,其中所述输入适配规则包括基于对所述用户的行为模式的学习和推测而设定的规则。
15.如权利要求13所述的方法,其中所述输入适配规则包括基于与所述语音查询输入相关联的商业推荐而设定的规则。
16.如权利要求13所述的方法,其中所述输入适配规则包括用于将所述用户的所述语音查询输入适配为所述内容提供服务器可理解的结构化查询数据的规则。
17.如权利要求13所述的方法,其中所述内容提供服务器为第一内容提供服务器,从所述第一内容提供服务器接收的所述查询结果输出为第一查询结果输出,并且所述方法还包括:
将所述经修改的结构化查询数据输出给第二内容提供服务器;
从所述第二内容提供服务器接收与所述经修改的结构化查询数据相对应的第二查询结果输出;
基于输出整合规则对所述第一查询结果输出和所述第二查询结果输出进行整合,以生成经整合的查询结果输出作为所述查询结果输出。
18.如权利要求17所述的方法,其中所述输出整合规则包括基于对所述用户的行为模式的学习和推测而设定的规则。
19.如权利要求17所述的方法,其中所述输出整合规则包括基于与所述查询结果输出相关联的商业推荐而设定的规则。
20.如权利要求13至19中任一项所述的方法,还包括:对所述查询结果输出进行自然语言生成处理以生成用于反馈给所述用户的语音查询结果输出。
21.如权利要求20所述的方法,还包括:基于所述语音查询输入对所述语音查询结果输出进行修改,以生成与所述语音查询输入相匹配的语音查询结果输出。
22.如权利要求20所述的方法,还包括:在所述语音查询结果输出被反馈给所述用户之前,基于输出适配规则对所述语音查询结果输出进行修改。
23.如权利要求22所述的方法,其中所述输出适配规则包括基于对所述用户的行为模式的学习和推测而设定的规则。
24.如权利要求22所述的方法,其中所述输出适配规则包括基于与所述语音查询结果输出相关联的商业推荐而设定的规则。
25.一种存储有代码的计算机可读介质,所述代码在由处理器执行时使得所述处理器实现如权利要求13至24中任一项所述的用于实现智能化语音查询的方法。
CN202210102621.5A 2022-01-27 2022-01-27 用于实现智能化语音查询的方法和装置 Pending CN116561250A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210102621.5A CN116561250A (zh) 2022-01-27 2022-01-27 用于实现智能化语音查询的方法和装置
US17/654,635 US20230237056A1 (en) 2022-01-27 2022-03-14 Method and apparatus for intelligent voice query

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210102621.5A CN116561250A (zh) 2022-01-27 2022-01-27 用于实现智能化语音查询的方法和装置

Publications (1)

Publication Number Publication Date
CN116561250A true CN116561250A (zh) 2023-08-08

Family

ID=87314071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210102621.5A Pending CN116561250A (zh) 2022-01-27 2022-01-27 用于实现智能化语音查询的方法和装置

Country Status (2)

Country Link
US (1) US20230237056A1 (zh)
CN (1) CN116561250A (zh)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10127274B2 (en) * 2016-02-08 2018-11-13 Taiger Spain Sl System and method for querying questions and answers
US11227589B2 (en) * 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10303683B2 (en) * 2016-10-05 2019-05-28 International Business Machines Corporation Translation of natural language questions and requests to a structured query format
US10754886B2 (en) * 2016-10-05 2020-08-25 International Business Machines Corporation Using multiple natural language classifier to associate a generic query with a structured question type
WO2020101263A1 (en) * 2018-11-14 2020-05-22 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling thereof
US11442932B2 (en) * 2019-07-16 2022-09-13 Thoughtspot, Inc. Mapping natural language to queries using a query grammar
US11520815B1 (en) * 2021-07-30 2022-12-06 Dsilo, Inc. Database query generation using natural language text
WO2023063966A1 (en) * 2021-10-13 2023-04-20 Google Llc Distilling to a target device based on observed query patterns

Also Published As

Publication number Publication date
US20230237056A1 (en) 2023-07-27

Similar Documents

Publication Publication Date Title
US10853582B2 (en) Conversational agent
US11487832B2 (en) Analyzing web pages to facilitate automatic navigation
CN105654950B (zh) 自适应语音反馈方法和装置
CN107391521B (zh) 基于消息分类自动扩增消息交换话题
CN110770694B (zh) 获得来自多个语料库的响应信息
US11934394B2 (en) Data query method supporting natural language, open platform, and user terminal
US20220050661A1 (en) Analyzing graphical user interfaces to facilitate automatic interaction
CN110753908A (zh) 在通信会话期间促进用户设备和/或代理设备动作
CN111970186A (zh) 确定电子通信回复中包括的非文本回复内容的方法和装置
JP6524359B1 (ja) 入力および/または出力がチャット語を含む、ユーザインターフェース入力に応じた提示のための出力の生成
CN112910759B (zh) 用于扩增消息交换话题的方法、系统和存储介质
RU2653246C1 (ru) Усовершенствование запроса для поиска базы данных
US11893993B2 (en) Interfacing with applications via dynamically updating natural language processing
US11514896B2 (en) Interfacing with applications via dynamically updating natural language processing
KR20220141891A (ko) 디지털 액션 실행을 위한 인터페이스 및 모드 선택
KR20130062799A (ko) 키워드 정보 제공 방법
CN111475244A (zh) 页面生成方法、装置、设备与计算机可读存储介质
US9965812B2 (en) Generating a supplemental description of an entity
US11568146B2 (en) Location-based mode(s) for biasing provisioning of content when an automated assistant is responding to condensed natural language inputs
CN116561250A (zh) 用于实现智能化语音查询的方法和装置
CN106550274A (zh) 一种智能电视的个性化定制方法及系统
CN109597498B (zh) 一种词库维护管理方法、装置
US11481556B2 (en) Electronic device, method, and computer program which support naming
CN117216094A (zh) 业务查询语句构建方法、装置、设备以及存储介质
CN113672700A (zh) 内容项的搜索方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination