CN107463700B - 用于获取信息的方法、装置及设备 - Google Patents

用于获取信息的方法、装置及设备 Download PDF

Info

Publication number
CN107463700B
CN107463700B CN201710696676.2A CN201710696676A CN107463700B CN 107463700 B CN107463700 B CN 107463700B CN 201710696676 A CN201710696676 A CN 201710696676A CN 107463700 B CN107463700 B CN 107463700B
Authority
CN
China
Prior art keywords
information
scene
type
text
output mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710696676.2A
Other languages
English (en)
Other versions
CN107463700A (zh
Inventor
凌光
林英展
纪友升
谢泽颖
徐威
梁一川
王文敏
张寅�
黄永祥
周超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710696676.2A priority Critical patent/CN107463700B/zh
Publication of CN107463700A publication Critical patent/CN107463700A/zh
Application granted granted Critical
Publication of CN107463700B publication Critical patent/CN107463700B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Abstract

本申请实施例公开了用于获取信息的方法、装置及设备。该方法的一具体实施方式包括:获取待识别音频信息的文字信息;确定文字信息的语义信息,并提取文字信息的场景特征信息;将场景特征信息导入预先训练的场景识别模型匹配得到场景类型;查找对应语义信息的搜索信息,通过对应场景特征信息的场景类型对搜索信息进行筛选得到结果信息。该实施方式通过场景类型对搜索信息进行筛选得到结果信息,使得结果信息能够满足场景类型的要求,提高了结果信息对场景类型的针对性和有效性。

Description

用于获取信息的方法、装置及设备
技术领域
本申请涉及信息处理技术领域,具体涉及信息交互技术领域,尤其涉及用于获取信息的方法、装置及设备。
背景技术
语音识别技术能够使得用户与具有语音识别功能的设备进行交互。用户可以经由诸如麦克风等的语音输入设备,将自己的语音直接输入到设备中。然后,用户的语音将被转换成声音命令来操作设备,设备执行声音命令,或返回对应的信息。例如,向设备发出语音信息,设备接收到语音信号后,查找对应的结果信息,并将结果信息通过音频、视频等方式输出。语音识别技术简化了对设备的操作步骤,提高了操作设备的便利性。
现有的语音识别技术是直接根据语音信息对应的文字信息查找结果信息,这样的结果信息数量庞大,且没有针对性,降低了获取结果信息的有效性。
发明内容
本申请实施例的目的在于提出了用于获取信息的方法、装置及设备,来解决以上背景技术部分提到的技术问题。
第一方面,本申请实施例提供了一种用于获取信息的方法,该方法包括:获取待识别音频信息的文字信息;确定上述文字信息的语义信息,并提取文字信息的场景特征信息,上述场景特征信息用于表征对应文字信息的语言场景;将上述场景特征信息导入预先训练的场景识别模型匹配得到场景类型,其中,上述场景识别模型用于表征场景特征信息与场景类型的对应关系,场景类型包括以下至少一项:驾驶类型、课堂类型、娱乐类型;查找对应上述语义信息的搜索信息,通过对应上述场景特征信息的场景类型对上述搜索信息进行筛选得到结果信息。
在一些实施例中,上述方法还包括建立场景识别模型的步骤,上述建立场景识别模型的步骤包括:分别从文字信息集合和场景类型集合中提取文字信息和与文字信息相关联的场景类型;从文字信息中提取场景特征信息;利用机器学习方法,基于上述场景特征信息和与场景特征信息相关联的场景类型,训练得到场景识别模型。
在一些实施例中,上述查找对应上述语义信息的搜索信息包括:从本地查找对应上述语义信息的搜索信息,或通过网络查找对应上述语义信息的搜索信息。
在一些实施例中,上述通过对应上述场景特征信息的场景类型对上述搜索信息进行筛选得到结果信息包括:确定上述搜索信息的信息类型,上述信息类型包括以下至少一项:文字、图像、视频、音乐;查询上述场景类型的信息输出方式,上述信息输出方式包括以下至少一项:音频输出方式、视频输出方式、文字输出方式;将满足上述信息输出方式的信息类型对应的搜索信息作为结果信息。
在一些实施例中,上述将满足上述信息输出方式的信息类型对应的搜索信息作为结果信息包括:确定上述信息输出方式的优先级,按照优先级的先后顺序输出上述结果信息。
第二方面,本申请实施例提供了一种用于获取信息的装置,上述该装置包括:文字信息获取单元,用于获取待识别音频信息的文字信息;信息提取单元,用于确定上述文字信息的语义信息,并提取文字信息的场景特征信息,上述场景特征信息用于表征对应文字信息的语言场景;场景类型确定单元,用于将上述场景特征信息导入预先训练的场景识别模型匹配得到场景类型,其中,上述场景识别模型用于表征场景特征信息与场景类型的对应关系,场景类型包括以下至少一项:驾驶类型、课堂类型、娱乐类型;结果信息获取单元,用于查找对应上述语义信息的搜索信息,通过对应上述场景特征信息的场景类型对上述搜索信息进行筛选得到结果信息。
在一些实施例中,上述装置还包括场景识别模型构建单元,用于建立场景识别模型,上述场景识别模型构建单元包括:信息提取子单元,用于分别从文字信息集合和场景类型集合中提取文字信息和与文字信息相关联的场景类型;场景特征信息提取子单元,用于从文字信息中提取场景特征信息;场景识别模型构建子单元,用于利用机器学习方法,基于上述场景特征信息和与场景特征信息相关联的场景类型,训练得到场景识别模型。
在一些实施例中,上述结果信息获取单元包括:信息类型确定子单元,用于确定上述搜索信息的信息类型,上述信息类型包括以下至少一项:文字、图像、视频、音乐;信息输出方式查询子单元,用于查询上述场景类型的信息输出方式,上述信息输出方式包括以下至少一项:音频输出方式、视频输出方式、文字输出方式;结果信息确定子单元,用于将满足上述信息输出方式的信息类型对应的搜索信息作为结果信息。
第三方面,本申请实施例提供了一种设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器执行上述第一方面的用于获取信息的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述第一方面的用于获取信息的方法。
本技术方案提出的用于获取信息的方法、装置及设备,首先获取待识别音频信息的文字信息;然后通过文字信息得到语义信息和场景特征信息;之后将场景特征信息导入场景识别模型确定待识别音频信息所处的场景类型;最后通过场景类型对搜索信息进行筛选得到结果信息,使得结果信息能够满足场景类型的要求,提高了结果信息对场景类型的针对性和有效性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的用于获取信息的方法的一个实施例的流程图;
图3是根据本申请的用于获取信息的方法的一个应用场景的示意图;
图4是根据本申请的用于获取信息的装置的一个实施例的结构示意图;
图5是适于用来实现本申请实施例的设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于获取信息的方法或用于获取信息的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以向终端设备101、102、103发送待识别音频信息,终端设备101、102、103查找到对应上述待识别音频信息的结果信息后,输出结果信息。终端设备101、102、103上可以安装有各种信息处理应用,例如音频识别应用、信息识别应用、搜索类应用、音频播放应用、信息显示应用、视频播放应用等。
终端设备101、102、103可以是具有显示屏、音频播放器并且支持信息查询的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103发来的信息查询请求进行信息查询,并返回查询结果的网页服务器。网页服务器可以对接收到的信息查询请求等数据进行分析等处理,并将查询到的对应信息查询请求的查询结果反馈给终端设备。
需要说明的是,本申请实施例所提供的用于获取信息的方法一般由终端设备101、102、103执行,相应地,用于获取信息的装置一般设置于终端设备101、102、103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于获取信息的方法的一个实施例的流程200。该用于获取信息的方法包括以下步骤:
步骤201,获取待识别音频信息的文字信息。
在本实施例中,用于获取信息的方法运行于其上的电子设备(例如图1所示的终端设备101、102、103)可以接收待识别音频信息,并通过有线连接方式或者无线连接方式与服务器105进行数据通信。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
当用户向终端设备101、102、103说话时,终端设备101、102、103就可以接收到对应说话内容的待识别音频信息。然后,终端设备101、102、103通过语音转换或语音识别等方式,将待识别音频信息转换为文字信息。例如,用户对终端设备101、102、103说“今天的天气怎么样”,终端设备101、102、103接收到“今天的天气怎么样”的待识别音频信息后,通过输入法的语音转换功能或其他音频转换方式,将用户的说话转换为文字信息“今天的天气怎么样”。
步骤202,确定上述文字信息的语义信息,并提取文字信息的场景特征信息。
终端设备101、102、103将待识别音频信息转换成对应的文字信息后,为了确定用户说话的目的,还要确定文字信息的语义信息。例如,文字信息为“今天的天气怎么样”,对应的语义信息可以是:“查询今天的天气信息”,即,本实施例的语义信息是指文字信息的含义。确定了文字信息对应的语义信息后,还要确定用户说话时的语言场景。这是因为,同样的意思在不同的语言场景下会有不同的表达方式,并且需要的反馈信息也会不同。例如,用户正在驾驶车辆行驶在路上,此时,用户向终端设备101、102、103提问“今天的天气怎么样”时,通常是不是要看天气预报的信息,而是更希望终端设备101、102、103能够将天气预报信息以音频的方式播放出来。因此,需要确定文字信息对应的场景特征信息。其中,场景特征信息用于表征对应文字信息的语言场景,例如,用户在驾驶车辆时想了解天气信息,可以向终端设备101、102、103提问“今天的天气怎么样”,当用户在办公室等场所时,同样时想了解天气信息,用户可以向终端设备101、102、103提问“查询今天的天气情况”。其中,“今天的天气怎么样”中的与“天气”相关的“怎么样”就可以认为是与驾驶车辆场景相关的场景特征信息;“查询今天的天气情况”中与“天气情况”相关的“查询”就可以认为是与办公室语言场景相关的场景特征信息。可见,同样是了解天气信息,在不同的语言场景表达方式可以不同。这种不同的表达方式可以通过个人语言习惯来确定,也可以通过其他方式确定,此处不再一一赘述。本实施例中,语言场景可以是用户说话时所处的周围环境,例如上述的开车语言场景和办公室语言场景。语言场景可以有多种,语言场景可以是人为设定的,也可以是终端设备101、102、103根据设定的场景识别出来的,具体可以根据实际需要而定。
步骤203,将上述场景特征信息导入预先训练的场景识别模型匹配得到场景类型。
得到场景特征信息后,终端设备101、102、103可以将场景特征信息导入场景识别模型,进而得到对应场景特征信息的场景类型。其中,上述场景识别模型用于表征场景特征信息与场景类型的对应关系。作为示例,场景识别模型可以是技术人员基于对大量的场景特征信息和场景类型的统计而预先制定的、存储有多个场景特征信息和场景类型的对应关系的对应关系表;也可以是技术人员基于对大量场景特征信息的统计而预先设置并存储在终端设备101、102、103中的、对场景特征信息进行统计计算而得到的计算公式。例如,该公式可以是统计某些特征词的数量,或计算特征词所占全部特征词的比值等,以确定场景特征信息对应的场景类型。场景类型包括以下至少一项:驾驶类型、课堂类型、娱乐类型。例如,驾驶类型可以是用户在驾驶车辆时场景类型,基于行车安全的考虑,该场景类型下主要通过音频进行信息交互;课堂类型可以是用户在课堂时的场景类型,该场景类型下可以通过音频、视频、图像或文字等多种方式的信息交互;娱乐类型可以是用户娱乐时的场景类型,该场景类型下可以通过视频或音频的方式进行信息交互。可选的,还可以包括其他场景类型,具体可根据实际需要而定。
在本实施例的一些可选的实现方式中,上述方法还可以包括建立场景识别模型的步骤,上述建立场景识别模型的步骤可以包括以下步骤:
第一步,分别从文字信息集合和场景类型集合中提取文字信息和与文字信息相关联的场景类型。
文字信息集合内包含了大量的文字信息,这些文字信息可以是用于基于语言场景的音频信息转换来的,也可以是用户基于语言场景直接输入或设定的。场景类型集合内的场景类型与文字信息集合中文字信息对应的语言场景相匹配,即,文字信息集合中文字信息的语言场景属于场景类型集合中的某一个或某几个场景类型。
第二步,从文字信息中提取场景特征信息。
文字信息能从一定程度上反映语言场景,为了确定文字信息的场景类型,需要先从文字信息中提取出场景特征信息。实际中,通常是统计在各种语言场景下用户使用的文字信息,即,先建立语言场景和文字信息的对应关系。然后再从文字信息中提取特征信息,这些特征信息能一定程度上与文字信息所处的语言场景对应,这些特征信息即为场景特征信息。
第三步,利用机器学习方法,基于上述场景特征信息和与场景特征信息相关联的场景类型,训练得到场景识别模型。
终端设备101、102、103可以使用朴素贝叶斯模型(Naive Bayesian Model,NBM)或支持向量机(Support Vector Machine,SVM)等用于分类的模型,将场景特征信息作为模型的输入,将场景类型作为模型的输出。利用机器学习方法对该模型进行训练,得到场景识别模型。
步骤204,查找对应上述语义信息的搜索信息,通过对应上述场景特征信息的场景类型对上述搜索信息进行筛选得到结果信息。
在步骤202中可以得到文字信息的语义信息,根据语义信息可以确定文字信息的目的。因此,可以根据语义信息查找对应文字信息的搜索信息。搜索信息没有考虑场景类型的因素,包括了海量的内容,而这些内容很多不适合在对应的场景类型下显示或播放。因此,还要通过与对应场景特征信息的场景类型对搜索信息进行筛选,得到满足场景类型的结果信息。例如,文字信息是“今天的天气怎么样”,语义信息为“查询今天的天气信息”,搜索信息可以是文字、图标、音频或视频等多种类型的天气信息。再考虑文字信息对应的场景类型为驾驶类型,则可以从搜索信息中筛选出满足驾驶类型的搜索信息作为结果信息。
在本实施例的一些可选的实现方式中,上述查找对应上述语义信息的搜索信息可以包括:从本地查找对应上述语义信息的搜索信息,或通过网络查找对应上述语义信息的搜索信息。
终端设备101、102、103可以配备有保存信息的存储器,如果语义信息对应的搜索信息可以从终端设备101、102、103的本地找到,则可以直接从终端设备101、102、103本地查找搜索信息。例如,终端设备101、102、103可以保存有地图信息或各个省市区的名称、地理位置等信息,这些信息基本上不会随时间发生变化,因此可以保存到终端设备101、102、103的存储器。当语义信息为查找某省包含的市的名称或地理位置时,则可以直接从终端设备101、102、103的存储器获取到对应的搜索信息。当语义信息为查找天气情况时,由于天气情况时刻都在发生变化,要想获得准确的天气信息最好是通过网络来查询。因此,可以通过网络来查找对应语义信息的搜索信息。
在本实施例的一些可选的实现方式中,上述通过对应上述场景特征信息的场景类型对上述搜索信息进行筛选得到结果信息可以包括以下步骤:
第一步,确定上述搜索信息的信息类型。
同一类型的信息可以以不同的形式记录在网络上。对应的,搜索信息可以是多种,通常,信息类型包括以下至少一项:文字、图像、视频、音乐等。
第二步,查询上述场景类型的信息输出方式。
场景类型包括驾驶类型、课堂类型、娱乐类型等多种类型。不同的场景类型适用的信息输出方式不同。例如,在驾驶类型下,信息输出方式主要为音频方式,文字、图像或视频都可能影响到驾驶的安全性。而在课堂类型下,则可以包括文字、图像、音频和视频等多种信息输出方式。可选的,信息输出方式可以包括以下至少一项:音频输出方式、视频输出方式、文字输出方式。
第三步,将满足上述信息输出方式的信息类型对应的搜索信息作为结果信息。
从搜索信息的信息类型中选择满足场景类型的信息输出方式的信息类型,再确定这些信息类型对应的搜索信息为结果信息。
进一步的,还可以根据终端设备101、102、103能播放的信息类型的格式对搜索信息进一步筛选。例如,同样是音乐,音乐的数据格式还可以能有多种,而终端设备101、102、103的音频播放器可能识别其中的几种数据格式。因此,还要从这些数据格式中选择终端设备101、102、103的音频播放器能识别的数据格式。
在本实施例的一些可选的实现方式中,上述将满足上述信息输出方式的信息类型对应的搜索信息作为结果信息可以包括:确定上述信息输出方式的优先级,按照优先级的先后顺序输出上述结果信息。
一种场景类型可能有多种信息输出方式。例如,课堂类型的信息输出方式就可以包括文字输出方式、图像输出方式、音频输出方式和视频输出方式。但为了避免影响正常上课,可以优先选择文字输出方式,当结果信息不能通过文字输出方式输出时再选择图像输出方式。类似的,驾驶类型的信息输出方式可以优先选择音频输出方式,结果信息不能通过音频输出方式输出时,可以选择图像输出方式。
继续参见图3,图3是根据本实施例的用于获取信息的方法的应用场景的一个示意图。在图3的应用场景中,用户正在驾驶车辆。用户向终端设备102说话后,终端设备102将用户说的话转换为待识别音频信息,并通过语音识别等技术获取到对应待识别音频信息的文字信息;之后,对文字信息进行语义分析得到对应文字信息的语义信息;从文字信息中提取能够表征用户当前所处语言场景的场景特征信息;再将场景特征信息导入场景识别模型得到场景类型(即驾驶类型);最后,根据用户的说话内容,从终端设备102的本地或通过无线连接的服务器105查询对应的搜索信息,并通过驾驶类型对搜索信息进行筛选得到结果信息。
本技术方案提出的用于获取信息的方法,首先获取待识别音频信息的文字信息;然后通过文字信息得到语义信息和场景特征信息;之后将场景特征信息导入场景识别模型确定待识别音频信息所处的场景类型;最后通过场景类型对搜索信息进行筛选得到结果信息,使得结果信息能够满足场景类型的要求,提高了结果信息对场景类型的针对性和有效性。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了一种用于获取信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例的用于获取信息的装置400可以包括:文字信息获取单元401、信息提取单元402、场景类型确定单元403和结果信息获取单元404。其中,文字信息获取单元401用于获取待识别音频信息的文字信息;信息提取单元402用于确定上述文字信息的语义信息,并提取文字信息的场景特征信息,上述场景特征信息用于表征对应文字信息的语言场景;场景类型确定单元403用于将上述场景特征信息导入预先训练的场景识别模型匹配得到场景类型,其中,上述场景识别模型用于表征场景特征信息与场景类型的对应关系,场景类型包括以下至少一项:驾驶类型、课堂类型、娱乐类型;结果信息获取单元404用于查找对应上述语义信息的搜索信息,通过对应上述场景特征信息的场景类型对上述搜索信息进行筛选得到结果信息。
在本实施例的一些可选的实现方式中,上述用于获取信息的装置400还可以包括场景识别模型构建单元(图中未示出),用于建立场景识别模型,上述场景识别模型构建单元可以包括:信息提取子单元(图中未示出)、场景特征信息提取子单元(图中未示出)和场景识别模型构建子单元(图中未示出)。其中,信息提取子单元用于分别从文字信息集合和场景类型集合中提取文字信息和与文字信息相关联的场景类型;场景特征信息提取子单元用于从文字信息中提取场景特征信息;场景识别模型构建子单元用于利用机器学习方法,基于上述场景特征信息和与场景特征信息相关联的场景类型,训练得到场景识别模型。
在本实施例的一些可选的实现方式中,上述结果信息获取单元404可以包括:从本地查找对应上述语义信息的搜索信息,或通过网络查找对应上述语义信息的搜索信息。
在本实施例的一些可选的实现方式中,上述结果信息获取单元404还包括:信息类型确定子单元(图中未示出)、信息输出方式查询子单元(图中未示出)和结果信息确定子单元(图中未示出)。其中,信息类型确定子单元用于确定上述搜索信息的信息类型,上述信息类型包括以下至少一项:文字、图像、视频、音乐;信息输出方式查询子单元用于查询上述场景类型的信息输出方式,上述信息输出方式包括以下至少一项:音频输出方式、视频输出方式、文字输出方式;结果信息确定子单元用于将满足上述信息输出方式的信息类型对应的搜索信息作为结果信息。
在本实施例的一些可选的实现方式中,上述结果信息确定子单元可以包括:确定上述信息输出方式的优先级,按照优先级的先后顺序输出上述结果信息。
本实施例还提供了一种设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器执行上述的用于获取信息的方法。
本实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的用于获取信息的方法。
下面参考图5,其示出了适于用来实现本申请实施例的设备的计算机系统500的结构示意图。图5示出的设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括用于获取待识别音频信息的麦克风阵列、键盘、鼠标等的输入部分506;包括液晶显示器(LCD)等以及声卡、扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
存储部分508可以包括底层系统,包括Android系统、Linux内核、驱动程序、U-boot、和声学前端算法等组件,供硬件开发者使用。底层系统提供的接口供软件工具开发包(SDK,Software Development Kit)使用,规避由于硬件设计带来的语音识别效果差这一潜在问题。
Android系统层面,提供基础库、本地决策引擎、语音识别库、人脸检测和识别,以及文字转语音等功能,硬件开发者通过调用SDK提供的接口,可以无缝地完成基于语音的智能交互硬件的开发。
本申请的终端设备还提供联网管理、设备硬件控制、运动控制等服务。在本申请的终端设备上可以构建一个类目池,硬件开发者可以创建新的场景,从类目池中可以选择适合的类目组成一个应用场景。通过SDK可以提供通用配置的服务端类目选择,最小化智能硬件产品的进入门槛。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括文字信息获取单元、信息提取单元、场景类型确定单元和结果信息获取单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,结果信息获取单元还可以被描述为“通过场景类型对搜索信息进行筛选得到结果信息的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的终端设备中所包含的;也可以是单独存在,而未装配入该终端设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该终端设备执行时,使得该终端设备:获取待识别音频信息的文字信息;确定上述文字信息的语义信息,并提取文字信息的场景特征信息,上述场景特征信息用于表征对应文字信息的语言场景;将上述场景特征信息导入预先训练的场景识别模型匹配得到场景类型,其中,上述场景识别模型用于表征场景特征信息与场景类型的对应关系,场景类型包括以下至少一项:驾驶类型、课堂类型、娱乐类型;查找对应上述语义信息的搜索信息,通过对应上述场景特征信息的场景类型对上述搜索信息进行筛选得到结果信息。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种用于获取信息的方法,其特征在于,所述方法包括:
获取待识别音频信息的文字信息;
确定所述文字信息的语义信息,并提取文字信息的场景特征信息,所述场景特征信息用于表征对应文字信息的语言场景;
将所述场景特征信息导入预先训练的场景识别模型匹配得到场景类型,其中,所述场景识别模型用于表征场景特征信息与场景类型的对应关系,场景类型包括以下至少一项:驾驶类型、课堂类型、娱乐类型;
查找对应所述语义信息的搜索信息,通过对应所述场景特征信息的场景类型对所述搜索信息进行筛选得到结果信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括建立场景识别模型的步骤,所述建立场景识别模型的步骤包括:
分别从文字信息集合和场景类型集合中提取文字信息和与文字信息相关联的场景类型;
从文字信息中提取场景特征信息;
利用机器学习方法,基于所述场景特征信息和与场景特征信息相关联的场景类型,训练得到场景识别模型。
3.根据权利要求1所述的方法,其特征在于,所述查找对应所述语义信息的搜索信息包括:
从本地查找对应所述语义信息的搜索信息,或通过网络查找对应所述语义信息的搜索信息。
4.根据权利要求1所述的方法,其特征在于,所述通过对应所述场景特征信息的场景类型对所述搜索信息进行筛选得到结果信息包括:
确定所述搜索信息的信息类型,所述信息类型包括以下至少一项:文字、图像、视频、音乐;
查询所述场景类型的信息输出方式,所述信息输出方式包括以下至少一项:音频输出方式、视频输出方式、文字输出方式;
将满足所述信息输出方式的信息类型对应的搜索信息作为结果信息。
5.根据权利要求4所述的方法,其特征在于,所述将满足所述信息输出方式的信息类型对应的搜索信息作为结果信息包括:
确定所述信息输出方式的优先级,按照优先级的先后顺序输出所述结果信息。
6.一种用于获取信息的装置,其特征在于,所述装置包括:
文字信息获取单元,用于获取待识别音频信息的文字信息;
信息提取单元,用于确定所述文字信息的语义信息,并提取文字信息的场景特征信息,所述场景特征信息用于表征对应文字信息的语言场景;
场景类型确定单元,用于将所述场景特征信息导入预先训练的场景识别模型匹配得到场景类型,其中,所述场景识别模型用于表征场景特征信息与场景类型的对应关系,场景类型包括以下至少一项:驾驶类型、课堂类型、娱乐类型;
结果信息获取单元,用于查找对应所述语义信息的搜索信息,通过对应所述场景特征信息的场景类型对所述搜索信息进行筛选得到结果信息。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括场景识别模型构建单元,用于建立场景识别模型,所述场景识别模型构建单元包括:
信息提取子单元,用于分别从文字信息集合和场景类型集合中提取文字信息和与文字信息相关联的场景类型;
场景特征信息提取子单元,用于从文字信息中提取场景特征信息;
场景识别模型构建子单元,用于利用机器学习方法,基于所述场景特征信息和与场景特征信息相关联的场景类型,训练得到场景识别模型。
8.根据权利要求6所述的装置,其特征在于,所述结果信息获取单元包括:
信息类型确定子单元,用于确定所述搜索信息的信息类型,所述信息类型包括以下至少一项:文字、图像、视频、音乐;
信息输出方式查询子单元,用于查询所述场景类型的信息输出方式,所述信息输出方式包括以下至少一项:音频输出方式、视频输出方式、文字输出方式;
结果信息确定子单元,用于将满足所述信息输出方式的信息类型对应的搜索信息作为结果信息。
9.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行权利要求1至5中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5中任一所述的方法。
CN201710696676.2A 2017-08-15 2017-08-15 用于获取信息的方法、装置及设备 Active CN107463700B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710696676.2A CN107463700B (zh) 2017-08-15 2017-08-15 用于获取信息的方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710696676.2A CN107463700B (zh) 2017-08-15 2017-08-15 用于获取信息的方法、装置及设备

Publications (2)

Publication Number Publication Date
CN107463700A CN107463700A (zh) 2017-12-12
CN107463700B true CN107463700B (zh) 2020-09-08

Family

ID=60549961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710696676.2A Active CN107463700B (zh) 2017-08-15 2017-08-15 用于获取信息的方法、装置及设备

Country Status (1)

Country Link
CN (1) CN107463700B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108257596B (zh) * 2017-12-22 2021-07-23 北京小蓦机器人技术有限公司 一种用于提供目标呈现信息的方法与设备
CN108197563B (zh) * 2017-12-29 2022-03-11 百度在线网络技术(北京)有限公司 用于获取信息的方法及装置
CN108804667B (zh) * 2018-06-08 2021-11-02 百度在线网络技术(北京)有限公司 用于呈现信息的方法和装置
CN109857849A (zh) * 2019-01-18 2019-06-07 三角兽(北京)科技有限公司 回复方法、回复装置、信息处理装置及存储介质
CN109918479B (zh) * 2019-02-28 2021-07-20 百度在线网络技术(北京)有限公司 用于处理信息的方法及装置
CN111953854B (zh) * 2019-05-14 2021-08-06 新联协同通信技术(北京)有限公司 一种基于场景模型的智能客服辅助方法
CN110782889A (zh) * 2019-08-22 2020-02-11 腾讯科技(深圳)有限公司 一种语音操作方法及相关设备
CN111916080A (zh) * 2020-08-04 2020-11-10 中国联合网络通信集团有限公司 语音识别资源选取方法、装置、计算机设备及存储介质
CN113239872B (zh) * 2021-06-01 2024-03-19 平安科技(深圳)有限公司 事件识别方法、装置、设备及存储介质
CN114677691B (zh) * 2022-04-06 2023-10-03 北京百度网讯科技有限公司 文本识别方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103187061A (zh) * 2011-12-28 2013-07-03 上海博泰悦臻电子设备制造有限公司 车内语音对话系统
CN103674012A (zh) * 2012-09-21 2014-03-26 高德软件有限公司 语音定制方法及其装置、语音识别方法及其装置
CN104516709A (zh) * 2014-11-12 2015-04-15 科大讯飞股份有限公司 基于软件运行场景及语音助手的语音辅助方法及系统
CN105448292A (zh) * 2014-08-19 2016-03-30 北京羽扇智信息科技有限公司 一种基于场景的实时语音识别系统和方法
CN105719649A (zh) * 2016-01-19 2016-06-29 百度在线网络技术(北京)有限公司 语音识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9668073B2 (en) * 2015-10-07 2017-05-30 Robert Bosch Gmbh System and method for audio scene understanding of physical object sound sources

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103187061A (zh) * 2011-12-28 2013-07-03 上海博泰悦臻电子设备制造有限公司 车内语音对话系统
CN103674012A (zh) * 2012-09-21 2014-03-26 高德软件有限公司 语音定制方法及其装置、语音识别方法及其装置
CN105448292A (zh) * 2014-08-19 2016-03-30 北京羽扇智信息科技有限公司 一种基于场景的实时语音识别系统和方法
CN104516709A (zh) * 2014-11-12 2015-04-15 科大讯飞股份有限公司 基于软件运行场景及语音助手的语音辅助方法及系统
CN105719649A (zh) * 2016-01-19 2016-06-29 百度在线网络技术(北京)有限公司 语音识别方法及装置

Also Published As

Publication number Publication date
CN107463700A (zh) 2017-12-12

Similar Documents

Publication Publication Date Title
CN107463700B (zh) 用于获取信息的方法、装置及设备
US10970334B2 (en) Navigating video scenes using cognitive insights
CN107481720B (zh) 一种显式声纹识别方法及装置
CN111400518B (zh) 作品生成和编辑方法、装置、终端、服务器和系统
US20180315094A1 (en) Method and system for targeted advertising based on natural language analytics
CN104281656B (zh) 在应用程序中加入标签信息的方法和装置
CN110717337A (zh) 信息处理方法、装置、计算设备和存储介质
CN109582825B (zh) 用于生成信息的方法和装置
CN109815448B (zh) 幻灯片生成方法及装置
CN109862100B (zh) 用于推送信息的方法和装置
CN109710799B (zh) 语音交互方法、介质、装置和计算设备
JP6866336B2 (ja) 人工知能アプリケーションを構築する方法及び装置
CN108959087A (zh) 测试方法和装置
CN113315979A (zh) 数据处理方法、装置、电子设备和存储介质
CN110413834B (zh) 语音评论修饰方法、系统、介质和电子设备
CN110379406B (zh) 语音评论转换方法、系统、介质和电子设备
CN114625699A (zh) 对先前呈现的材料的识别和重构
CN110335237B (zh) 用于生成模型的方法、装置和用于识别图像的方法、装置
WO2019228140A1 (zh) 指令执行方法、装置、存储介质及电子设备
CN110659387A (zh) 用于提供视频的方法和设备
US11769504B2 (en) Virtual meeting content enhancement triggered by audio tracking
CN115222857A (zh) 生成虚拟形象的方法、装置、电子设备和计算机可读介质
US20220189475A1 (en) Dynamic virtual assistant speech modulation
JP2024507734A (ja) 音声類似度決定方法及び装置、プログラム製品
JP6944920B2 (ja) スマートインタラクティブの処理方法、装置、設備及びコンピュータ記憶媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant