CN105653738A - 基于人工智能的搜索结果播报方法和装置 - Google Patents

基于人工智能的搜索结果播报方法和装置 Download PDF

Info

Publication number
CN105653738A
CN105653738A CN201610116708.2A CN201610116708A CN105653738A CN 105653738 A CN105653738 A CN 105653738A CN 201610116708 A CN201610116708 A CN 201610116708A CN 105653738 A CN105653738 A CN 105653738A
Authority
CN
China
Prior art keywords
candidate
text
result
text message
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610116708.2A
Other languages
English (en)
Other versions
CN105653738B (zh
Inventor
刘凯
冯洋
杨钦
吕雅娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610116708.2A priority Critical patent/CN105653738B/zh
Publication of CN105653738A publication Critical patent/CN105653738A/zh
Priority to US15/349,919 priority patent/US10810272B2/en
Priority to KR1020160162501A priority patent/KR101970047B1/ko
Priority to JP2017026070A priority patent/JP6370943B2/ja
Application granted granted Critical
Publication of CN105653738B publication Critical patent/CN105653738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing

Abstract

本发明公开了一种基于人工智能的搜索结果播报方法和装置,其中,方法包括:接收用户输入的查询语句,并根据查询语句获取多个候选搜索结果;对候选搜索结果进行分析,以确定候选搜索结果的类别;获取查询语句的意图信息,根据意图信息和类别筛选候选搜索结果,以获取筛选后的搜索结果;以及生成筛选后的搜索结果对应的文本信息,并播报文本信息。本发明实施例的基于人工智能的搜索结果播报方法和装置,通过对用户输入的查询语句进行分析,获取对应的意图信息,并筛选出符合播报条件的搜索结果,最后通过生成的连续自然语音播报出符合用户意图的搜索结果,直观地反馈用户所需的核心信息,降低用户操作成本,节省用户时间,更加智能化。

Description

基于人工智能的搜索结果播报方法和装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于人工智能的搜索结果播报方法和装置。
背景技术
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。
随着科技的不断进步,搜索引擎已成为人们生活中必不可少的部分,并日趋智能化。目前,传统的搜索引擎的交互方式是用户输入搜索关键字,搜索引擎返回与用户需求相关的搜索结果,并按照相关性由高到低的顺序排序。用户可浏览和点击搜索结果,并从中选择感兴趣或有需求的信息和内容。
而传统的交互方式存在以下问题:搜索引擎无法理解用户的意图,提供的搜索结果难以抓住核心信息,需要用户自己从搜索结果中选取符合需求的内容,耗费时间,操作成本高。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种基于人工智能的搜索结果播报方法,能够直观地反馈用户所需的核心信息,降低用户操作成本,节省用户时间,更加智能化。
本发明的第二个目的在于提出一种基于人工智能的搜索结果播报装置。
为了实现上述目的,本发明第一方面实施例提出了一种基于人工智能的搜索结果播报方法,包括:接收用户输入的查询语句,并根据所述查询语句获取多个候选搜索结果;对所述候选搜索结果进行分析,以确定所述候选搜索结果的类别,其中,所述类别包括结构化结果和富文本结果;获取所述查询语句的意图信息,根据所述意图信息和所述类别筛选所述候选搜索结果,以获取筛选后的搜索结果;以及生成所述筛选后的搜索结果对应的文本信息,并播报所述文本信息。
本发明实施例的基于人工智能的搜索结果播报方法,通过对用户输入的查询语句进行分析,获取对应的意图信息,并筛选出符合播报条件的搜索结果,最后通过生成的连续自然语音播报出符合用户意图的搜索结果,直观地反馈用户所需的核心信息,降低用户操作成本,节省用户时间,更加智能化。
本发明第二方面实施例提出了一种基于人工智能的搜索结果播报装置,包括:查询模块,用于接收用户输入的查询语句,并根据所述查询语句获取多个候选搜索结果;确定模块,用于对所述候选搜索结果进行分析,以确定所述候选搜索结果的类别,其中,所述类别包括结构化结果和富文本结果;筛选模块,用于获取所述查询语句的意图信息,根据所述意图信息和所述类别筛选所述候选搜索结果,以获取筛选后的搜索结果;以及播报模块,用于生成所述筛选后的搜索结果对应的文本信息,并播报所述文本信息。
本发明实施例的基于人工智能的搜索结果播报装置,通过对用户输入的查询语句进行分析,获取对应的意图信息,并筛选出符合播报条件的搜索结果,最后通过生成的连续自然语音播报出符合用户意图的搜索结果,直观地反馈用户所需的核心信息,降低用户操作成本,节省用户时间,更加智能化。
附图说明
图1是本发明一个实施例的基于人工智能的搜索结果播报方法的流程图;
图2是展示结构化结果效果示意图;
图3是本发明一个实施例的生成对应的文本信息的流程图一;
图4是本发明一个实施例的生成对应的文本信息的流程图二;
图5是本发明一个实施例的基于人工智能的搜索结果播报装置的结构示意图一;
图6是本发明一个实施例的基于人工智能的搜索结果播报装置的结构示意图二。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于人工智能的搜索结果播报方法和装置。
图1是根据本发明一个实施例的基于人工智能的搜索结果播报方法的流程图。
如图1所示,基于人工智能的搜索结果播报方法可包括:
S1、接收用户输入的查询语句,并根据查询语句获取多个候选搜索结果。
举例来说,用户在搜索引擎中输入“苹果”,搜索引擎可搜索“苹果”相关的信息,并在搜索结果页中展示如“苹果官网”、“苹果的最新相关信息”、“苹果手机的报价”等多个候选搜索结果。
S2、对候选搜索结果进行分析,以确定候选搜索结果的类别。
具体地,可获取候选搜索结果对应的页面内容信息,对页面内容信息进行解析,并提取页面内容信息对应的数据特征,然后可根据数据特征确定候选搜索结果的类别。其中,候选搜索结果的类别可包括结构化结果和富文本结果。例如:结构化结果可包括阿拉丁结果,阿拉丁结果为通过接口直接展示实体结果的搜索结果。如图2所示,通过预设接口直接展示当天天气及未来一周的天气气象情况。再例如用户查询某一地点,直接通过地图展示该地点的信息。而富文本结果可包括新闻、论坛、文库等文字信息类结果。
举例来说,某一候选搜索结果对应的页面内容可通过超文本标记语言HTML表示,可对该HTML进行解析,解析出该页面内容的数据特征,如标题、用户名、内容、在页面中的位置等。假设数据特征包括主题名称、发帖用户名称及其发布的内容、回帖用户名称及其对应的回复内容、回贴的数量、回覆内容对应的楼层数等等,基于这些数据特征可确定该候选搜索结果的类别为论坛类,即属于富文本结果。
S3、获取查询语句的意图信息,根据意图信息和类别筛选候选搜索结果,以获取筛选后的搜索结果。
在本发明的一个实施例中,可将查询语句切分为多个单词或短语,分析单词的字面特征、语义特征、对于查询语句的重要度等特征,根据上述特征分析出该查询语句的意图信息,然后再结合上一步骤中候选搜索结果的类别,筛选出符合播报条件的搜索结果。例如:某一查询语句的意图信息可确定为无语音播报的意图,则其对应的搜索结果无需语音播报,即可过滤掉该查询语句对应的搜索结果。再例如:虽然某一查询语句确定为有语音播报的意图,则可过滤掉其对应的搜索结果中不是结构化结果和富文本结果的搜索结果。
S4、生成筛选后的搜索结果对应的文本信息,并播报文本信息。
在本发明的一个实施例中,结构化结果和富文本结果生成对应的文本信息的方式是不同的。
具体地,当候选搜索结果的类别为结构化结果时,如图3所示,生成对应的文本信息可包括以下步骤:
S41、提取结构化结果中包含的多个字段。
S42、计算每个字段对于结构化结果的重要度,并根据重要度获取符合预设条件的候选字段。
S43、根据候选字段生成多个候选文本信息。
S44、计算查询语句与候选文本信息的相似度,并根据相似度对候选文本信息进行排序,最后再根据排序结果生成筛选后的搜索结果对应的文本信息。
具体地,可基于预设排序模型对候选文本信息进行排序。其中,预设排序模型包括线性回归Linear-Regression排序模型、组合分析Pair-Wise排序模型等。
举例来说,假设查询语句为“北京明天的天气如何”,其对应的结构化结果中可包括“北京”、“明天”、“天气”、“如何”等字段,可计算上述字段对于结构化结果的重要度,可选取重要度超过预设阈值或者重要度排名前三的字段作为候选字段。可将上述候选字段拼接组合生成多个候选文本信息,如“北京明天气温为XX到XX度,天气晴”、“北京明天天气晴,气温为XX到XX度”等等。通过这些离散的字段能够生成适合连续播报的文本。在生成多个候选文本信息之后,可基于语言模型、句法模型、语义模型等模型计算查询语句与上述候选文本信息的相似度。最后获取与查询语句相似度最高的候选文本信息。其中,相似度可包括字面相似度、语义相似度、播报风格相似度等。
另外,为使播报方式更符合口语习惯,可在生成多个候选文本信息之后,对候选文本信息进行口语播报化改写。例如:数字100000,如果确定其为邮政编码,则需要将其改写为“幺零零零零零”,避免被播报为“十万”。再例如,多音字的改写,如“单田芳”中的“单”读作shan,四声。
当候选搜索结果的类别为富文本结果时,如图4所示,生成对应的文本信息可包括以下步骤:
S45、可对富文本结果进行预处理。
其中,预处理可包括文本抽取、文本去重、关键词分析、文本结构分析等。
S46、基于广义语言模型提取富文本结果中多个候选语句的特征。
其中,特征可包括候选语句与查询语句的语义相似度和/或意图相似度、候选语句在对应的富文本结果中的位置信息、候选语句包含的关键词信息等。
S47、根据特征计算候选语句的得分。
S48、根据得分对候选语句进行排序,以及根据排序结果生成筛选后的搜索结果对应的文本信息。
举例来说,假设富文本结果为“北京小客车摇号”的新闻页面,则可抽取每一页面中的正文,对正文进行结构分析例如某一正文分为三个段落,共包含十个语句。从正文中提取与“北京小客车摇号”意图相关的语句,然后基于语言模型、句法模型、语义模型等模型选取语句的特征。其中,特征可包括与查询语句“北京小客车摇号”的语义相似度、该语句在正文中的位置,以及该语句是否包含“北京”、“小客车”、“摇号”关键词等等。根据上述特征计算出每个语句对应的得分,按照得分从高到低的顺序进行排序。例如相似度高的得分高、包含关键词多的得分高等。最后将得分最高的语句作为正文的摘要,即待播报的文本信息,从而实现将冗长的正文缩减为意图明确、言简意赅的摘要信息,避免播报时间过长。当然,为使播报方式更符合口语习惯,也可对该文本信息进行口语播报化改写。
在生成文本信息之后,可基于TTS语音合成技术将文本信息合成为语音信息,并播报语音信息。例如用户在查询北京明天天气时,最终播报的语音信息为“北京明天天气晴,5度到15度,北风二级到三级”,而非仅通过搜索结果页面将北京未来一周的天气全部展现给用户,直接播报出用户需求的搜索结果,更加符合用户需求。并且语音播报的方式还能够提高趣味性,吸引用户的关注,加深用户对搜索结果的印象。当然,也可以播报建议信息,例如可根据天气情况,在播报天气情况之后,还可增加播报“天冷请注意保暖”等信息。在播报语音信息的同时,在搜索结果页面展示对应的搜索结果,使用户的视觉和听觉获取信息的体验保持一致,从而进一步提升用户使用体验。
本发明实施例的基于人工智能的搜索结果播报方法,通过对用户输入的查询语句进行分析,获取对应的意图信息,并筛选出符合播报条件的搜索结果,最后通过生成的连续自然语音播报出符合用户意图的搜索结果,直观地反馈用户所需的核心信息,降低用户操作成本,节省用户时间,更加智能化。
为实现上述目的,本发明还提出一种基于人工智能的搜索结果播报装置。
图5是根据本发明一个实施例的基于人工智能的搜索结果播报装置的结构示意图。
如图5所示,基于人工智能的搜索结果播报装置可包括:查询模块110、确定模块120、筛选模块130和播报模块140。
查询模块110用于接收用户输入的查询语句,并根据查询语句获取多个候选搜索结果。举例来说,用户在搜索引擎中输入“苹果”,搜索引擎可搜索“苹果”相关的信息,并在搜索结果页中展示如“苹果官网”、“苹果的最新相关信息”、“苹果手机的报价”等多个候选搜索结果。
确定模块120用于对候选搜索结果进行分析,以确定候选搜索结果的类别。具体地,确定模块120可获取候选搜索结果对应的页面内容信息,对页面内容信息进行解析,并提取页面内容信息对应的数据特征,然后可根据数据特征确定候选搜索结果的类别。其中,候选搜索结果的类别可包括结构化结果和富文本结果。例如:结构化结果可包括阿拉丁结果,阿拉丁结果为通过接口直接展示实体结果的搜索结果。如图2所示,通过预设接口直接展示当天天气及未来一周的天气气象情况。再例如用户查询某一地点,直接通过地图展示该地点的信息。而富文本结果可包括新闻、论坛、文库等文字信息类结果。
举例来说,某一候选搜索结果对应的页面内容可通过超文本标记语言HTML表示,可对该HTML进行解析,解析出该页面内容的数据特征,如标题、用户名、内容、在页面中的位置等。假设数据特征包括主题名称、发帖用户名称及其发布的内容、回帖用户名称及其对应的回复内容、回贴的数量、回覆内容对应的楼层数等等,基于这些数据特征可确定该候选搜索结果的类别为论坛类,即属于富文本结果。
筛选模块130用于获取查询语句的意图信息,根据意图信息和类别筛选候选搜索结果,以获取筛选后的搜索结果。在本发明的一个实施例中,筛选模块130可将查询语句切分为多个单词或短语,分析单词的字面特征、语义特征、对于查询语句的重要度等特征,根据上述特征分析出该查询语句的意图信息,然后再结合上一步骤中候选搜索结果的类别,筛选出符合播报条件的搜索结果。例如:某一查询语句的意图信息可确定为无语音播报的意图,则其对应的搜索结果无需语音播报,即可过滤掉该查询语句对应的搜索结果。再例如:虽然某一查询语句确定为有语音播报的意图,则可过滤掉其对应的搜索结果中不是结构化结果和富文本结果的搜索结果。
播报模块140用于生成筛选后的搜索结果对应的文本信息,并播报文本信息。其中,搜索结果可分为结构化结果和富文本结果,结构化结果和富文本结果生成对应的文本信息的方式是不同的。
具体地,播报模块140可包括提取单元141、获取单元142、生成单元143和排序单元144。
当候选搜索结果的类别为结构化结果时,首先,提取单元141可提取结构化结果中包含的多个字段。然后,获取单元142可计算每个字段对于结构化结果的重要度,并根据重要度获取符合预设条件的候选字段。生成单元143可根据候选字段生成多个候选文本信息。最后,排序单元144可计算查询语句与候选文本信息的相似度,并根据相似度对候选文本信息进行排序,最后再根据排序结果生成筛选后的搜索结果对应的文本信息。具体地,可基于预设排序模型对候选文本信息进行排序。其中,预设排序模型包括线性回归Linear-Regression排序模型、组合分析Pair-Wise排序模型等。
举例来说,假设查询语句为“北京明天的天气如何”,其对应的结构化结果中可包括“北京”、“明天”、“天气”、“如何”等字段,可计算上述字段对于结构化结果的重要度,可选取重要度超过预设阈值或者重要度排名前三的字段作为候选字段。可将上述候选字段拼接组合生成多个候选文本信息,如“北京明天气温为XX到XX度,天气晴”、“北京明天天气晴,气温为XX到XX度”等等。通过这些离散的字段能够生成适合连续播报的文本。在生成多个候选文本信息之后,可基于语言模型、句法模型、语义模型等模型计算查询语句与上述候选文本信息的相似度。最后获取与查询语句相似度最高的候选文本信息。其中,相似度可包括字面相似度、语义相似度、播报风格相似度等。
另外,如图6所示,播报模块140还可包括改写单元145。
为使播报方式更符合口语习惯,改写单元145可在生成多个候选文本信息之后,对候选文本信息进行口语播报化改写。例如:数字100000,如果确定其为邮政编码,则需要将其改写为“幺零零零零零”,避免被播报为“十万”。再例如,多音字的改写,如“单田芳”中的“单”读作shan,四声。
当候选搜索结果的类别为富文本结果时,播报模块140可对富文本结果进行预处理。其中,预处理可包括文本抽取、文本去重、关键词分析、文本结构分析等。然后基于广义语言模型提取富文本结果中多个候选语句的特征。其中,特征可包括候选语句与查询语句的语义相似度和/或意图相似度、候选语句在对应的富文本结果中的位置信息、候选语句包含的关键词信息等。再根据特征计算候选语句的得分,最后根据得分对候选语句进行排序,以及根据排序结果生成筛选后的搜索结果对应的文本信息。
举例来说,假设富文本结果为“北京小客车摇号”的新闻页面,则可抽取每一页面中的正文,对正文进行结构分析例如某一正文分为三个段落,共包含十个语句。从正文中提取与“北京小客车摇号”意图相关的语句,然后基于语言模型、句法模型、语义模型等模型选取语句的特征。其中,特征可包括与查询语句“北京小客车摇号”的语义相似度、该语句在正文中的位置,以及该语句是否包含“北京”、“小客车”、“摇号”关键词等等。根据上述特征计算出每个语句对应的得分,按照得分从高到低的顺序进行排序。例如相似度高的得分高、包含关键词多的得分高等。最后将得分最高的语句作为正文的摘要,即待播报的文本信息,从而实现将冗长的正文缩减为意图明确、言简意赅的摘要信息,避免播报时间过长。当然,为使播报方式更符合口语习惯,也可对该文本信息进行口语播报化改写。
在生成文本信息之后,播报模块140可基于TTS语音合成技术将文本信息合成为语音信息,并播报语音信息。例如用户在查询北京明天天气时,最终播报的语音信息为“北京明天天气晴,5度到15度,北风二级到三级”,而非仅通过搜索结果页面将北京未来一周的天气全部展现给用户,直接播报出用户需求的搜索结果,更加符合用户需求。并且语音播报的方式还能够提高趣味性,吸引用户的关注,加深用户对搜索结果的印象。当然,也可以播报建议信息,例如可根据天气情况,在播报天气情况之后,还可增加播报“天冷请注意保暖”等信息。在播报语音信息的同时,在搜索结果页面展示对应的搜索结果,使用户的视觉和听觉获取信息的体验保持一致,从而进一步提升用户使用体验。
本发明实施例的基于人工智能的搜索结果播报装置,通过对用户输入的查询语句进行分析,获取对应的意图信息,并筛选出符合播报条件的搜索结果,最后通过生成的连续自然语音播报出符合用户意图的搜索结果,直观地反馈用户所需的核心信息,降低用户操作成本,节省用户时间,更加智能化。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (16)

1.一种基于人工智能的搜索结果播报方法,其特征在于,包括以下步骤:
接收用户输入的查询语句,并根据所述查询语句获取多个候选搜索结果;
对所述候选搜索结果进行分析,以确定所述候选搜索结果的类别,其中,所述类别包括结构化结果和富文本结果;
获取所述查询语句的意图信息,根据所述意图信息和所述类别筛选所述候选搜索结果,以获取筛选后的搜索结果;以及
生成所述筛选后的搜索结果对应的文本信息,并播报所述文本信息。
2.如权利要求1所述的方法,其特征在于,对所述候选搜索结果进行分析,以确定所述候选搜索结果的类别,包括:
获取所述候选搜索结果对应的页面内容信息;
对所述页面内容信息进行解析,并提取所述页面内容信息对应的数据特征;
根据所述数据特征确定所述候选搜索结果的类别。
3.如权利要求1所述的方法,其特征在于,当所述候选搜索结果的类别为结构化结果时,生成筛选后的搜索结果对应的文本信息,包括:
提取所述结构化结果中包含的多个字段;
计算每个字段对于所述结构化结果的重要度,并根据所述重要度获取符合预设条件的候选字段;
根据所述候选字段生成多个候选文本信息;
计算所述查询语句与所述候选文本信息的相似度,并根据所述相似度对所述候选文本信息进行排序,以及根据排序结果生成筛选后的搜索结果对应的文本信息。
4.如权利要求3所述的方法,其特征在于,在根据所述候选字段生成多个候选文本信息后,还包括:
对所述候选文本信息进行口语播报化改写。
5.如权利要求3所述的方法,其特征在于,计算所述查询语句与所述候选文本信息的相似度,包括:
基于广义语言模型计算所述查询语句与所述候选文本信息的相似度,其中,所述相似度包括字面相似度、语义相似度、播报风格相似度中的一种或多种。
6.如权利要求3所述的方法,其特征在于,根据所述相似度对所述候选文本信息进行排序,包括:
基于预设排序模型对所述候选文本信息进行排序,所述预设排序模型包括线性回归Linear-Regression排序模型、组合分析Pair-Wise排序模型。
7.如权利要求1所述的方法,其特征在于,当所述候选搜索结果的类别为富文本结果时,生成筛选后的搜索结果对应的文本信息,包括:
对所述富文本结果进行预处理,所述预处理包括文本抽取、文本去重、关键词分析、文本结构分析中的一种或多种;
基于广义语言模型提取所述富文本结果中多个候选语句的特征,所述特征包括所述候选语句与所述查询语句的语义相似度和/或意图相似度、所述候选语句在对应的富文本结果中的位置信息、所述候选语句包含的关键词信息中的一种或多种;
根据所述特征计算所述候选语句的得分;
根据所述得分对所述候选语句进行排序,以及根据排序结果生成筛选后的搜索结果对应的文本信息。
8.如权利要求1所述的方法,其特征在于,播报所述文本信息,包括:
基于TTS语音合成技术将所述文本信息合成为语音信息,并播报所述语音信息。
9.一种基于人工智能的搜索结果播报装置,其特征在于,包括:
查询模块,用于接收用户输入的查询语句,并根据所述查询语句获取多个候选搜索结果;
确定模块,用于对所述候选搜索结果进行分析,以确定所述候选搜索结果的类别,其中,所述类别包括结构化结果和富文本结果;
筛选模块,用于获取所述查询语句的意图信息,根据所述意图信息和所述类别筛选所述候选搜索结果,以获取筛选后的搜索结果;以及
播报模块,用于生成所述筛选后的搜索结果对应的文本信息,并播报所述文本信息。
10.如权利要求9所述的装置,其特征在于,所述确定模块,用于:
获取所述候选搜索结果对应的页面内容信息;
对所述页面内容信息进行解析,并提取所述页面内容信息对应的数据特征;
根据所述数据特征确定所述候选搜索结果的类别。
11.如权利要求9所述的装置,其特征在于,所述播报模块,包括:
提取单元,用于当所述候选搜索结果的类别为结构化结果时,提取所述结构化结果中包含的多个字段;
获取单元,用于计算每个字段对于所述结构化结果的重要度,并根据所述重要度获取符合预设条件的候选字段;
生成单元,用于根据所述候选字段生成多个候选文本信息;
排序单元,用于计算所述查询语句与所述候选文本信息的相似度,并根据所述相似度对所述候选文本信息进行排序,以及根据排序结果生成筛选后的搜索结果对应的文本信息。
12.如权利要求11所述的装置,其特征在于,所述播报模块,还包括:
改写单元,用于在根据所述候选字段生成多个候选文本信息后,对所述候选文本信息进行口语播报化改写。
13.如权利要求11所述的装置,其特征在于,所述排序单元,用于:
基于广义语言模型计算所述查询语句与所述候选文本信息的相似度,其中,所述相似度包括字面相似度、语义相似度、播报风格相似度中的一种或多种。
14.如权利要求11所述的装置,其特征在于,所述排序单元,用于:
基于预设排序模型对所述候选文本信息进行排序,所述预设排序模型包括线性回归Linear-Regression排序模型、组合分析Pair-Wise排序模型。
15.如权利要求9所述的装置,其特征在于,所述播报模块,用于:
当所述候选搜索结果的类别为富文本结果时,对所述富文本结果进行预处理,所述预处理包括文本抽取、文本去重、关键词分析、文本结构分析中的一种或多种;
基于广义语言模型提取所述富文本结果中多个候选语句的特征,所述特征包括所述候选语句与所述查询语句的语义相似度和/或意图相似度、所述候选语句在对应的富文本结果中的位置信息、所述候选语句包含的关键词信息中的一种或多种;
根据所述特征计算所述候选语句的得分;
根据所述得分对所述候选语句进行排序,以及根据排序结果生成筛选后的搜索结果对应的文本信息。
16.如权利要求9所述的装置,其特征在于,所述播报模块,用于:
基于TTS语音合成技术将所述文本信息合成为语音信息,并播报所述语音信息。
CN201610116708.2A 2016-03-01 2016-03-01 基于人工智能的搜索结果播报方法和装置 Active CN105653738B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201610116708.2A CN105653738B (zh) 2016-03-01 2016-03-01 基于人工智能的搜索结果播报方法和装置
US15/349,919 US10810272B2 (en) 2016-03-01 2016-11-11 Method and apparatus for broadcasting search result based on artificial intelligence
KR1020160162501A KR101970047B1 (ko) 2016-03-01 2016-12-01 인공 지능을 기반으로 하는 검색 결과 플레이 방법과 장치
JP2017026070A JP6370943B2 (ja) 2016-03-01 2017-02-15 人工知能に基づく検索結果放送方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610116708.2A CN105653738B (zh) 2016-03-01 2016-03-01 基于人工智能的搜索结果播报方法和装置

Publications (2)

Publication Number Publication Date
CN105653738A true CN105653738A (zh) 2016-06-08
CN105653738B CN105653738B (zh) 2020-05-22

Family

ID=56492742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610116708.2A Active CN105653738B (zh) 2016-03-01 2016-03-01 基于人工智能的搜索结果播报方法和装置

Country Status (4)

Country Link
US (1) US10810272B2 (zh)
JP (1) JP6370943B2 (zh)
KR (1) KR101970047B1 (zh)
CN (1) CN105653738B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547736A (zh) * 2016-10-31 2017-03-29 百度在线网络技术(北京)有限公司 基于人工智能的文本信息术语重要度生成方法以及装置
CN107066568A (zh) * 2017-04-06 2017-08-18 竹间智能科技(上海)有限公司 基于用户意图预测的人机对话方法及装置
CN107315731A (zh) * 2016-04-27 2017-11-03 北京京东尚科信息技术有限公司 文本相似度计算方法
CN107808007A (zh) * 2017-11-16 2018-03-16 百度在线网络技术(北京)有限公司 信息处理方法和装置
CN107832414A (zh) * 2017-11-07 2018-03-23 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN109033286A (zh) * 2018-07-12 2018-12-18 北京猫眼文化传媒有限公司 数据统计方法和装置
CN109284357A (zh) * 2018-08-29 2019-01-29 腾讯科技(深圳)有限公司 人机对话方法、装置、电子设备及计算机可读介质
CN109344299A (zh) * 2018-11-12 2019-02-15 考拉征信服务有限公司 对象搜索方法、装置、电子设备及计算机可读存储介质
CN109388693A (zh) * 2018-09-13 2019-02-26 武汉斗鱼网络科技有限公司 一种确定分区意图的方法以及相关设备
CN109558523A (zh) * 2018-11-06 2019-04-02 广东美的制冷设备有限公司 搜索处理方法、装置及终端设备
CN109684633A (zh) * 2018-12-14 2019-04-26 北京百度网讯科技有限公司 搜索处理方法、装置、设备及存储介质
CN109857843A (zh) * 2018-12-25 2019-06-07 科大讯飞股份有限公司 基于文档的交互方法及系统
CN110399542A (zh) * 2019-07-17 2019-11-01 合肥善达信息科技有限公司 一种天气预报稿件自动生成与播报方法
CN110580313A (zh) * 2018-06-08 2019-12-17 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN111753173A (zh) * 2020-06-17 2020-10-09 北京字节跳动网络技术有限公司 一种信息查询方法及装置
CN112148831A (zh) * 2020-11-26 2020-12-29 广州华多网络科技有限公司 图文混合检索方法、装置、存储介质、计算机设备
CN112231440A (zh) * 2020-10-09 2021-01-15 安徽讯呼信息科技有限公司 一种基于人工智能的语音搜索方法
CN112380337A (zh) * 2020-11-13 2021-02-19 平安普惠企业管理有限公司 基于富文本的高亮方法及装置
CN113066491A (zh) * 2021-03-18 2021-07-02 海信视像科技股份有限公司 显示设备及语音交互方法
CN113079400A (zh) * 2021-03-25 2021-07-06 海信视像科技股份有限公司 显示设备、服务器及语音交互方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107402912B (zh) * 2016-05-19 2019-12-31 北京京东尚科信息技术有限公司 解析语义的方法和装置
CN108733757B (zh) * 2018-04-11 2022-04-19 达而观信息科技(上海)有限公司 文本搜索方法及系统
EP3906508B1 (en) * 2018-12-31 2024-03-13 Intel Corporation Securing systems employing artificial intelligence
CN111460118B (zh) * 2020-03-26 2023-10-20 聚好看科技股份有限公司 一种人工智能冲突语义识别方法及装置
KR102642332B1 (ko) * 2020-12-30 2024-03-05 동국대학교 산학협력단 동적 메모리 기반의 신경망을 이용한 Few-Shot 텍스트 분류 장치 및 그 방법
KR102545892B1 (ko) * 2022-11-24 2023-06-21 주식회사 액션파워 텍스트 분류를 위한 학습 데이터를 생성하는 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184230A (zh) * 2011-05-11 2011-09-14 北京百度网讯科技有限公司 一种搜索结果的展示方法及装置
CN104361507A (zh) * 2014-11-20 2015-02-18 携程计算机技术(上海)有限公司 商品推荐方法及系统
CN105068661A (zh) * 2015-09-07 2015-11-18 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和系统
CN105159996A (zh) * 2015-09-07 2015-12-16 百度在线网络技术(北京)有限公司 基于人工智能的深度问答服务提供方法和装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8566102B1 (en) * 2002-03-28 2013-10-22 At&T Intellectual Property Ii, L.P. System and method of automating a spoken dialogue service
JP4226261B2 (ja) 2002-04-12 2009-02-18 三菱電機株式会社 構造化文書種別判定システム及び構造化文書種別判定方法
JP4089399B2 (ja) 2002-11-26 2008-05-28 沖電気工業株式会社 情報検索方法及び装置
JP2004185337A (ja) 2002-12-04 2004-07-02 Canon Inc 情報検索装置および方法および記憶媒体
US7792829B2 (en) * 2005-01-28 2010-09-07 Microsoft Corporation Table querying
JP4654745B2 (ja) 2005-04-13 2011-03-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US20070067305A1 (en) * 2005-09-21 2007-03-22 Stephen Ives Display of search results on mobile device browser with background process
US7921099B2 (en) * 2006-05-10 2011-04-05 Inquira, Inc. Guided navigation system
US20080270142A1 (en) * 2007-04-25 2008-10-30 Find 1-4-U Inc. Remote Interactive Information Delivery System
JP2009151541A (ja) 2007-12-20 2009-07-09 Ryutaro Kishishita 検索システムにおける最適情報の提示方法
US8615512B2 (en) * 2008-09-30 2013-12-24 Yahoo! Inc. Guiding user moderation by confidence levels
US9552352B2 (en) * 2011-11-10 2017-01-24 Microsoft Technology Licensing, Llc Enrichment of named entities in documents via contextual attribute ranking
US8682647B1 (en) * 2012-01-13 2014-03-25 Google Inc. Systems and methods for answering complex questions with mined natural language search results
JP6064629B2 (ja) * 2013-01-30 2017-01-25 富士通株式会社 音声入出力データベース検索方法、プログラム、及び装置
US9799324B2 (en) * 2016-01-28 2017-10-24 Google Inc. Adaptive text-to-speech outputs

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184230A (zh) * 2011-05-11 2011-09-14 北京百度网讯科技有限公司 一种搜索结果的展示方法及装置
CN104361507A (zh) * 2014-11-20 2015-02-18 携程计算机技术(上海)有限公司 商品推荐方法及系统
CN105068661A (zh) * 2015-09-07 2015-11-18 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和系统
CN105159996A (zh) * 2015-09-07 2015-12-16 百度在线网络技术(北京)有限公司 基于人工智能的深度问答服务提供方法和装置

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107315731A (zh) * 2016-04-27 2017-11-03 北京京东尚科信息技术有限公司 文本相似度计算方法
CN106547736B (zh) * 2016-10-31 2020-01-10 百度在线网络技术(北京)有限公司 基于人工智能的文本信息术语重要度生成方法以及装置
CN106547736A (zh) * 2016-10-31 2017-03-29 百度在线网络技术(北京)有限公司 基于人工智能的文本信息术语重要度生成方法以及装置
CN107066568A (zh) * 2017-04-06 2017-08-18 竹间智能科技(上海)有限公司 基于用户意图预测的人机对话方法及装置
CN107832414B (zh) * 2017-11-07 2021-10-22 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN107832414A (zh) * 2017-11-07 2018-03-23 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN107808007A (zh) * 2017-11-16 2018-03-16 百度在线网络技术(北京)有限公司 信息处理方法和装置
US10824664B2 (en) 2017-11-16 2020-11-03 Baidu Online Network Technology (Beijing) Co, Ltd. Method and apparatus for providing text push information responsive to a voice query request
CN110580313B (zh) * 2018-06-08 2024-02-02 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110580313A (zh) * 2018-06-08 2019-12-17 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN109033286A (zh) * 2018-07-12 2018-12-18 北京猫眼文化传媒有限公司 数据统计方法和装置
US11775760B2 (en) 2018-08-29 2023-10-03 Tencent Technology (Shenzhen) Company Limited Man-machine conversation method, electronic device, and computer-readable medium
CN109284357A (zh) * 2018-08-29 2019-01-29 腾讯科技(深圳)有限公司 人机对话方法、装置、电子设备及计算机可读介质
CN109388693B (zh) * 2018-09-13 2021-04-27 武汉斗鱼网络科技有限公司 一种确定分区意图的方法以及相关设备
CN109388693A (zh) * 2018-09-13 2019-02-26 武汉斗鱼网络科技有限公司 一种确定分区意图的方法以及相关设备
CN109558523A (zh) * 2018-11-06 2019-04-02 广东美的制冷设备有限公司 搜索处理方法、装置及终端设备
CN109344299A (zh) * 2018-11-12 2019-02-15 考拉征信服务有限公司 对象搜索方法、装置、电子设备及计算机可读存储介质
CN109684633A (zh) * 2018-12-14 2019-04-26 北京百度网讯科技有限公司 搜索处理方法、装置、设备及存储介质
CN109684633B (zh) * 2018-12-14 2023-05-16 北京百度网讯科技有限公司 搜索处理方法、装置、设备及存储介质
CN109857843A (zh) * 2018-12-25 2019-06-07 科大讯飞股份有限公司 基于文档的交互方法及系统
CN110399542B (zh) * 2019-07-17 2022-08-02 合肥善达信息科技有限公司 一种天气预报稿件自动生成与播报方法
CN110399542A (zh) * 2019-07-17 2019-11-01 合肥善达信息科技有限公司 一种天气预报稿件自动生成与播报方法
CN111753173A (zh) * 2020-06-17 2020-10-09 北京字节跳动网络技术有限公司 一种信息查询方法及装置
CN112231440A (zh) * 2020-10-09 2021-01-15 安徽讯呼信息科技有限公司 一种基于人工智能的语音搜索方法
CN112380337A (zh) * 2020-11-13 2021-02-19 平安普惠企业管理有限公司 基于富文本的高亮方法及装置
CN112148831B (zh) * 2020-11-26 2021-03-19 广州华多网络科技有限公司 图文混合检索方法、装置、存储介质、计算机设备
CN112148831A (zh) * 2020-11-26 2020-12-29 广州华多网络科技有限公司 图文混合检索方法、装置、存储介质、计算机设备
CN113066491A (zh) * 2021-03-18 2021-07-02 海信视像科技股份有限公司 显示设备及语音交互方法
CN113079400A (zh) * 2021-03-25 2021-07-06 海信视像科技股份有限公司 显示设备、服务器及语音交互方法

Also Published As

Publication number Publication date
CN105653738B (zh) 2020-05-22
KR101970047B1 (ko) 2019-04-17
US10810272B2 (en) 2020-10-20
US20170255702A1 (en) 2017-09-07
KR20170102412A (ko) 2017-09-11
JP6370943B2 (ja) 2018-08-08
JP2017157207A (ja) 2017-09-07

Similar Documents

Publication Publication Date Title
CN105653738A (zh) 基于人工智能的搜索结果播报方法和装置
CN102708100B (zh) 挖掘相关实体词的关系关键词的方法和装置及其应用
CN100458795C (zh) 一种智能组词输入的方法和一种输入法系统及其更新方法
CN102411621B (zh) 一种基于云模型的中文面向查询的多文档自动文摘方法
CN102163198B (zh) 提供新词或热词的方法及系统
CN105068661A (zh) 基于人工智能的人机交互方法和系统
CN105159996A (zh) 基于人工智能的深度问答服务提供方法和装置
CN106095762A (zh) 一种基于本体模型库的新闻推荐方法及装置
CN103823893A (zh) 一种基于用户评论的产品检索方法及产品检索系统
JP2009545810A (ja) 検索結果の時間的ランク付け
CN110633406B (zh) 事件专题的生成方法、装置、存储介质和终端设备
KR20090025535A (ko) 쿼리별 검색 컬렉션 생성 방법 및 시스템
CN106227714A (zh) 一种基于人工智能的获取生成诗词的关键词的方法和装置
CN101673306B (zh) 网页信息查询方法及其系统
CN101923556B (zh) 根据句子序列号进行网页搜索的方法和装置
CN102236639A (zh) 更新语言模型的系统和方法
CN101556596A (zh) 一种输入法系统及智能组词的方法
CN111488429A (zh) 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法
CN106294358A (zh) 一种信息的检索方法及系统
CN109508441A (zh) 数据分析方法、装置及电子设备
JP6932162B2 (ja) 地域に基づくアイテム推薦端末装置及びアイテム推薦情報提供方法。
CN105095383A (zh) 信息发布方法、搜索方法及相应装置
CN105787099A (zh) 一种获取学习资料的方法及装置
CN106844734B (zh) 一种自动生成会话回复内容的方法
CN106934007B (zh) 关联信息的推送方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant