CN108153875B - 语料处理方法、装置、智能音箱和存储介质 - Google Patents

语料处理方法、装置、智能音箱和存储介质 Download PDF

Info

Publication number
CN108153875B
CN108153875B CN201711429605.2A CN201711429605A CN108153875B CN 108153875 B CN108153875 B CN 108153875B CN 201711429605 A CN201711429605 A CN 201711429605A CN 108153875 B CN108153875 B CN 108153875B
Authority
CN
China
Prior art keywords
corpus
text
voice
corpus text
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711429605.2A
Other languages
English (en)
Other versions
CN108153875A (zh
Inventor
常哲珲
黄开粤
高铭瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Internet Security Software Co Ltd
Original Assignee
Beijing Kingsoft Internet Security Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Internet Security Software Co Ltd filed Critical Beijing Kingsoft Internet Security Software Co Ltd
Priority to CN201711429605.2A priority Critical patent/CN108153875B/zh
Publication of CN108153875A publication Critical patent/CN108153875A/zh
Application granted granted Critical
Publication of CN108153875B publication Critical patent/CN108153875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles

Abstract

本发明实施例公开了语料处理方法、装置、智能音箱和存储介质,所述方法包括:根据获取的第一语料文本以及第一特征语音确定所述第一语料文本与所述第一特征语音的映射关系,以形成映射关系库;将接收到的第二特征语音转换为第二语料文本,并提取所述第二语料文本的关键词,根据所述关键词确定匹配规则;按照所述匹配规则在所述映射关系库中查找与所述第二语料文本匹配的回应语音。以使用户获得多样化的回应语音。

Description

语料处理方法、装置、智能音箱和存储介质
技术领域
本发明实施例涉及语音及语料处理技术,尤其涉及一种语料处理方法、装置、智能音箱和存储介质。
背景技术
语料,通常是指在统计自然语言处理中实际上不可能观测到大规模的语言实例,所以,人们简单地用文本来代替语料,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品,通常将一个文本集合称为语料库。
一般的语料处理中,通常是将语料和对应的语音形成映射关系,当识别到用户输入的语音中包含有相对应的语料时,则调出相应的语音。其中的语音匹配为固定的形式,其语音回应的规则比较单一,智能化程度较低,用户体验差。
发明内容
本发明实施例提供一种语料处理方法、装置、智能音箱和存储介质,以使用户获得多样化的回应语音。
第一方面,本发明实施例提供了一种语料处理方法,所述方法包括:
根据获取的第一语料文本以及第一特征语音确定所述第一语料文本与所述第一特征语音的映射关系,以形成映射关系库;
将接收到的第二特征语音转换为第二语料文本,并提取所述第二语料文本的关键词,根据所述关键词确定匹配规则;
按照所述匹配规则在所述映射关系库中查找与所述第二语料文本匹配的回应语音。
第二方面,本发明实施例还提供了一种语料处理装置,所述装置包括:
映射关系库确定模块,用于根据获取的第一语料文本以及第一特征语音确定所述第一语料文本与所述第一特征语音的映射关系,以形成映射关系库;
匹配规则确定模块,用于将接收到的第二特征语音转换为第二语料文本,并提取所述第二语料文本的关键词,根据所述关键词确定匹配规则;
回应语音确定模块,用于按照所述匹配规则在所述映射关系库中查找与所述第二语料文本匹配的回应语音。
第三方面,本发明实施例还提供了一种智能音箱,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例中任一所述的语料处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的语料处理方法。
本发明实施例中,通过根据获取的第一语料文本以及第一特征语音确定所述第一语料文本与所述第一特征语音的映射关系,以形成映射关系库,将接收到的第二特征语音转换为第二语料文本,并提取所述第二语料文本的关键词,根据所述关键词确定匹配规则,按照所述匹配规则在所述映射关系库中查找与所述第二语料文本匹配的回应语音。结合语料中的关键词以及匹配规则,使用户获得多样化的回应语音。
附图说明
图1a是本发明实施例一中的一种语料处理方法的流程图;
图1b是本发明实施例一中所适用的一种映射关系库的结构图;
图1c是本发明实施例一中所适用的一种二次语音回采的流程图;
图2a是本发明实施例二中的一种语料处理方法的流程图;
图2b是本发明实施例二中所适用的一种语料对应的各语音的分值的示意图;
图2c是本发明实施例二中所适用的一种关键词语料对应的各语音的分值的示意图;
图2d是本发明实施例二中所适用的一种构建的应答网络图;
图3是本发明实施例三中的一种语料处理装置的结构示意图;
图4是本发明实施例四中的一种智能音箱的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1a为本发明实施例一提供的一种语料处理方法的流程图,本实施例可适用于针对用户输入的语音进行语音回应的情况,该方法可以由本发明实施例提供的语料处理装置来执行,该装置可采用软件和/或硬件的方式实现。参考图1a,该方法具体可以包括如下步骤:
S110、根据获取的第一语料文本以及第一特征语音确定所述第一语料文本与所述第一特征语音的映射关系,以形成映射关系库。
其中,映射关系库中存储了语料文本和特征语音之间的匹配关系,在该映射关系库中,通过语料文本可以获取到与其对应的特征语音,同理,根据特征语音也可以获取到与其对应的特征语音。将构成映射关系库的语料文本称为第一语料文本,将构成映射关系库的特征语音称为第一特征语音,其中,第一语料文本的个数和第一特征语音的个数分别至少为两个。第一语料文本的个数以及第一特征语音的个数越多,则映射关系库的内容越全面,根据映射关系库获取到的回应语音准确度越高。
具体的,映射关系库可以通过以下方式获得,需要说明的是,下述方式只是本发明实施例中提供的优选实施方式,不对具体的获取映射关系库的获取方式形成限定。
(1)获取自定义的第一语料文本;基于所述自定义的第一语料文本录入第一特征语音;确定所述自定义第一语料和所述第一特征语音的映射关系,以形成映射关系库。
可选的,自定义的第一语料文本为智能音箱的开发人员预先设定,具体的,该第一语料文本根据用户的要求预先设计,后台研发人员将第一语料文本输入至音箱服务器,音箱服务器对该第一语料文本内容进行分类,并针对不同类型的第一语料文本建立相应的语料库。示例性的,可以用对应的语料类型来命名语料库。第一特征语音包括针对第一语料文本录入的原始语音,若第一语料文本为疑问语料,则第一特征语音可以只针对该疑问语料的回应语料录入。示例性的,将录入特征语音的人称为“主播”,同一个类型的第一语料文本可以由同一个主播录入,用户可以通过试听若干个主播的声音来选择自己喜欢的主播的声音录入的语料文本,用户还可以通过安装在智能音箱或者与智能音箱有绑定关系的终端设备上的特定的应用程序来选择某个主播的声音录入的语料文本。
在一个具体的例子中,当自定义的第一语料文本“你是猴子吗”,根据其中的“你”、“是”、“猴子”和“吗”等关键词将该第一语料文本添加到疑问库中;针对该第一语料文本的回应语料为“你才是猴子”,将其添加到该疑问库对应的应答库中。接收针对第一语料文本录入的第一特征语音,即针对特定的回应语料录入特定主播的语音,该语音与回应语料存在对应关系,目的在于当识别出相应的语料信息时将调用相对应的语音。
在一个具体的例子中,图1b示出了一种映射关系库的结构图,其中,映射关系库中包括语料库和语音库,该语料库为6个第一语料文本组成,该语音库为6个第一特征语音组成,每个第一语料文本与其对应的第一特征语音组成一组映射关系。
(2)接收输入的第一特征语音;将所述第一特征语音识别为对应的第一语料文本;确定所述第一语料文本与所述第一特征语音的映射关系,以形成映射关系库。
具体的,通过智能音箱的语音录入模块接收主播录入的第一特征语音,然后将第一特征语音经过自动语音识别技术识别语料信息并输出,将该语料信息形成相应的第一语料文本。
需要说明的是,本发明实施例中的映射关系库的形成过程即为语音包的形成过程,用户可以根据语音包的音质、音色以及内容等方面来确定自己需要的语音包。
可选的,第一特征语音的获取过程还可通过从网络资源中获取的语料文本来实现。具体的,智能音箱的研发人员通过大数据分析和处理来获取网络上当前热度较高的言论,然后将其整理成相应的语料文本。在一个具体的例子中,以获取到的当前热度较高的言论对应的原始语料文本为A1、A2、A3和A4为例,这四个语料文本对应的回应语料为B1、B2、B3、B4、B5、B6和B7,其中,原始语料文本与回应语料文本之间没有严格的一一对应关系。具体的应用场景可以是A1、A2、A3和A4分别表示网友对歌曲X在曲风、作词、作曲和演唱等四个方面的评价询问,B1、B2、B3、B4、B5、B6和B7分别表示7个网友对这四个方面的评价询问的回答。研发人员将A1、A2、A3和A4与B1、B2、B3、B4、B5、B6和B7的对应关系录入智能音箱,在有设定需求时将B1、B2、B3、B4、B5、B6和B7中对应的一个回应语料进行语音识别后转换为第一特征语音。
S120、将接收到的第二特征语音转换为第二语料文本,并提取所述第二语料文本的关键词,根据所述关键词确定匹配规则。
其中,将录入的用户的语音称为第二特征语音,具体的应用场景是监测用户录入的第二特征语音,用第一特征语音进行回应。将接收到的第二特征语音转换为第二语料文本,具体的转换方法可以通过语音识别技术实现,例如:特征提取技术、模式匹配准则及模型训练技术等。
提取第二语料文本中的关键词,其中,关键词可以是第二语料文本中的主语、动词、名词和语气词等。在一个具体的例子中,表示用户态度的关键词可以是:不要、不是、你错了、好以及不是我想要的等;若第二语料文本为“我要去珠江新城怎么走”,则关键词可以是“我”、“去”、“珠江新城”以及“怎么走”。根据关键词确定匹配规则,针对不同的第二语料文本,各匹配规则不同,在该具体的例子中,根据“我要去珠江新城怎么走”中的关键词,具体的匹配规则可以是:用时最短、最少步行以及最少换乘等。
S130、按照所述匹配规则在所述映射关系库中查找与所述第二语料文本匹配的回应语音。
具体的,基于确定的匹配规则,在映射关系库中查找与第二语料文本匹配的回应语音。在一个具体的例子中,当第二语料文本为“我要去珠江新城怎么走”时,在映射关系库中存在三个回应语音,分别为“打车”、“550路转545路”以及“地铁5号线”,则根据关键词确定的匹配规则为用时最短,则在映射关系库中确定第二回应语音为“地铁5号线”。
本发明实施例中,通过根据获取的第一语料文本以及第一特征语音确定所述第一语料文本与所述第一特征语音的映射关系,以形成映射关系库,将接收到的第二特征语音转换为第二语料文本,并提取所述第二语料文本的关键词,根据所述关键词确定匹配规则,按照所述匹配规则在所述映射关系库中查找与所述第二语料文本匹配的回应语音。结合语料中的关键词以及匹配规则,使用户获得多样化的回应语音。
在上述实施例的基础上,在按照所述匹配规则在所述映射关系库中查找与所述第二语料文本匹配的回应语音之后,还包括:播报所述回应语音,接收并分析用户在设定的时间范围内对所述回应语音的反馈信息;根据所述用户反馈信息中表征用户态度的词语来更新所述回应语音对应的回应语料的优先级。
具体的,在按照所述匹配规则在所述映射关系库中查找与所述第二语料文本匹配的回应语音之后,将与第二语料文本对应的回应语音播报给用户,获取用户在设定的时间范围内对该回应语音的反馈信息。在一个具体的例子中,用户的反馈信息可以包括用于对该回应语音的评价信息,如:“我不满意”、“我不喜欢”以及“简直太棒了”等。实际的应用场景中,用户是否对回应语音进行反馈取决于用户本身,本发明实施例的方案中,是在用户对回应语音有反馈信息时,主动获取该反馈信息,若用户没有对回应语音进行反馈,则在播报回应语音后无法获取反馈信息。示例性的,将获取反馈信息的过程称为二次语音回采过程。
在二次语音回采时获取到反馈信息后,根据所述用户反馈信息中表征用户态度的词语来更新所述回应语音对应的回应语料的优先级。该优先级可以表征回应语音的实用性,优先级高表示实用性高,优先级低表示适用性低,示例性的,可以用正负反馈值来表征优先级,正反馈值表示提高该回应语音的优先级,负反馈值表示降低该回应语音的优先级。表征用户态度的词中,正面词语对应正反馈值,负面词语对应负反馈值。根据表征用户态度的词语更新回应语音对应的回应语料的优先级,给用户提供了更多选择,使提供的回应语音更符合用户的习惯和喜好。
在一个具体的例子中,图1c示出了一种二次语音回采的流程图,在图1c中,映射关系库包括图1b中的语料库和语音库。其中,输出回应语音的形式可以是将其进行播报,然后在设定的时间范围内第二次收集第二特征语音,提取关键词,并将提取的关键词与关键词库进行匹配,接收并分析对回应语音的反馈信息,根据该反馈信息中表征用户态度的词语来更新回应语音对应的回应语料的优先级,该优先级与正负反馈值关联,对回应语料的优先级进行更新,调用语料库以及特征语音库输出回应语音。
实施例二
图2a为本发明实施例二提供的一种语料处理方法的流程图,本实施例在上述实施例的基础上,对“根据所述关键词确定匹配规则”进行了优化。参考图2a,该方法具体可以包括如下步骤:
S210、根据获取的第一语料文本以及第一特征语音确定所述第一语料文本与所述第一特征语音的映射关系,以形成映射关系库。
S220、将接收到的第二特征语音转换为第二语料文本,并提取所述第二语料文本的关键词。
S230、根据所述关键词确定所述第二语料文本对应的任务请求类型。
其中,任务请求的类型包括美食攻略询问型、聊天请求型、地理位置请求型以及天气状况请求型,根据关键词确定第二语料文本对应的任务请求类型。在一个具体的例子中,若第二语料文本为“我想吃咖喱火锅,怎么走”,则关键词为“吃”、“咖喱火锅”和“怎么走”,则确定该第二语料文本对应的任务请求类型为美食路线请求型。
S240、按照设定的标准分别建立与所述任务请求类型相对应的匹配规则。
具体的,设定的标准可以是用户实现制定并将其输入至音箱服务器,根据该标准建立与任务请求类型相对应的匹配规则。示例性的,若任务请求类型为美食路线请求型,则匹配规则为匹配规则A;若任务请求类型为聊天请求型,则匹配规则为匹配规则B;若任务请求类型为地理位置请求型,则匹配规则为匹配规则C;若任务请求类型为天气状况请求型,则匹配规则为匹配规则D。
在一个具体的例子中,在利用第一匹配规则匹配出相应的回应语料进行回应后,建立在一定时间段内接收到同一用户语音后利用不同于第一匹配规则而调取不同回应语料后定义的匹配规则。应用场景可以是:利用第一匹配规则匹配出第一回应语料,利用第二匹配规则匹配出第二回应语料,利用第三匹配规则匹配出第三回应语料,利用第四匹配规则匹配出第四回应语料等,然后根据用户日常的使用记录,以及正负反馈记录统计这四种回应语料的优先级,其优先级将实时根据用户进行更新。
可选的,获取当前用户记录库以及网络用户记录库,其中,当前用户记录库和网络用户记录库是结合当前用户长期使用情况的记录、回应语料在网络中的使用热度而做的记录形成的数据库使用状态以及音箱服务器更新数据。可选的,回应语料在网络中的热度指的是回应语料在网络的新鲜程度。正负反馈值反映的是当前用户的使用习惯而记录的情况,在一个具体的例子中,还包括语料在网络中的使用热度、网络的新鲜程度等,用户习惯、使用热度、新鲜程度、时间区域范围内同样语料出现的次数以及其他分别对应一定的分值,如40%、20%、15%、15%、5%。“其他”可以是指回应语料的年代分值以及风格分值等。若回应语料丢失则其正负反馈值为0,其中,回应语料丢失的情况可以是无法获知回应语料或回应语音未能成功转换为语料。在一个具体的例子中,图2b示出了一种语料对应的各语音的分值的示意图,其中,260表示语音1区中的第一特征语音,各语音的分值为对当前用户的使用习惯的记录,分值越高,则表示其被调用的概率就越高,根据正负反馈值更新该分值,也即,该分值为实时更新变化。具体的,该分值可以用来表征各语音的优先级,分值高则表明优先级高,分值低则表明优先级低。在这个具体的例子中,各语音为语料1区中的语音。
图2c示出了一种关键词语料对应的各语音的分值的示意图,其中,270表示语料1区的第一语料文本,280表示语音1区的第一特征语音,分值越高的语料被调用的概率越高,分值为实时更新变化,根据接收的语料对应语音的正负反馈值变换更新其分值。在这个具体的例子中,各语料为语料1区中的语料,各语音为语料1区中的语音。
图2d示出了一种构建的应答网络图,其中,290表示第二特征语音对应的第二语料文本,291表示回应语料1区的回应语料,292表示回应语音1区的回应语音,若第二特征语音为“我要去珠江新城怎么走,请问珠江新城附近有什么好吃的和好玩的呢,珠江新城附近在下雨吗”,则在语料1区匹配的各语料可以是:语料1a为“我要去珠江新城怎么走”,语料1b为“珠江新城附近有什么好吃的”,语料1c为“珠江新城附近有什么好玩的”,语料1d为“珠江新城附近在下雨吗”。以语料1a为例,则关键词1a为“珠江新城”,关键词1b为“怎么走”,则此时根据关键词以及关键词对应的请求类型确定匹配规则,根据该匹配规则确定回应语料以及回音语音,具体的,在这个具体的例子中,匹配规则可以是到达时间最短规则。
需要说明的是,统计同一语料或不同语料在不同方面(如使用热度和新鲜程度)所占分值时对应的对被统计对象可以相同也可以不同,因此,各分值的总和与100%没有必然联系。本发明实施例中提到的各分值只是作为一个优选实施方式,对本发明的技术方案不形成具体限定。
S250、按照所述匹配规则在所述映射关系库中查找与所述第二语料文本匹配的回应语音。
本发明实施例中,首先根据所述关键词确定所述第二语料文本对应的任务请求类型,然后按照设定的标准分别建立与所述任务请求类型相对应的匹配规则。不同的匹配规则给用户获取回应语音时提供了更多的选择,语音回应更智能,更符合用户需求。
可选的,在上述技术方案的基础上,所述按照所述匹配规则在所述映射关系库中查找与所述第二语料文本匹配的回应语音,包括:收集用户在设定的时间段内的对回应语料的使用频率,根据所述使用频率和所述匹配规则确定所述回应语料的优先级;根据所述优先级对所述映射关系库建立应答网络,基于所述应答网络和所述优先级确定所述第二语料文本的优先级,并查找与所述第二语料文本匹配的回应语音。
其中,选取设定的时间段,例如一周,在一周内收集用户对回应语料的使用频率,回应语料的使用频率结合确定的匹配规则确定所述回应语料的优先级,根据所述优先级对所述映射关系库建立应答网络,基于所述应答网络和所述优先级确定所述第二语料文本的优先级,并查找与所述第二语料文本匹配的回应语音。通过回应语料的使用频率和匹配规则确定优先级,提供了更符合用户需求的回应语音。可选的,用户还可以从音箱服务器中下载喜欢的语音库到用户的智能音箱中,还可以下载不用年龄层适用的智能化语音。
在一个具体的例子中,在构建应答网络时,针对回应语料和回应语音,语料1a、语料1b、语料1c、语料1d分别对应有相应的语音1a、语音1b、语音1c、语音1d,前期在调用相关的语音时则需判断该语音的完整程度,当语音受损时,则在同一区中调用下一级的语音的地址,并搭上线。如语音1a受损,则调用语音1b的地址。再根据特征信息和相关的正负反馈值提取出应答信息,若应答信息为确认,则准备回应用户的第二语料文本。若回应语料文本中没有对应的第一特征语音时,则利用默认的语音转换器,将回应语料转换为回应语音并输出至智能音箱。
实施例三
图3是本发明实施例三提供的一种语料处理装置的结构示意图,该装置适用于执行本发明实施例提供给的一种语料处理方法。如图3所示,该装置具体可以包括:
映射关系库确定模块310,用于根据获取的第一语料文本以及第一特征语音确定所述第一语料文本与所述第一特征语音的映射关系,以形成映射关系库;
匹配规则确定模块320,用于将接收到的第二特征语音转换为第二语料文本,并提取所述第二语料文本的关键词,根据所述关键词确定匹配规则;
回应语音确定模块330,用于按照所述匹配规则在所述映射关系库中查找与所述第二语料文本匹配的回应语音。
进一步的,匹配规则确定模块320具体用于:
根据所述关键词确定所述第二语料文本对应的任务请求类型;
按照设定的标准分别建立与所述任务请求类型相对应的匹配规则。
进一步的,回应语音确定模块330具体用于:
收集用户在设定的时间段内的对回应语料的使用频率,根据所述使用频率和所述匹配规则确定所述回应语料的优先级;
根据所述优先级对所述映射关系库建立应答网络,基于所述应答网络和所述优先级确定所述第二语料文本的优先级,并查找与所述第二语料文本匹配的回应语音。
进一步的,还包括:
回应语音播报模块,用于在按照所述匹配规则在所述映射关系库中查找与所述第二语料文本匹配的回应语音之后,播报所述回应语音,接收并分析用户在设定的时间范围内对所述回应语音的反馈信息;
更新模块,用于根据所述用户反馈信息中表征用户态度的词语来更新所述回应语音对应的回应语料的优先级。
进一步的,映射关系库确定模块310具体用于:
获取自定义的第一语料文本;
基于所述自定义的第一语料文本录入第一特征语音;
确定所述自定义第一语料和所述第一特征语音的映射关系,以形成映射关系库。
进一步的,映射关系库确定模块310具体用于:
接收输入的第一特征语音;
将所述第一特征语音识别为对应的第一语料文本;
确定所述第一语料文本与所述第一特征语音的映射关系,以形成映射关系库。
本发明实施例提供的语料处理装置可执行本发明任意实施例提供的语料处理方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4为本发明实施例四提供的一种智能音箱的结构示意图。图4示出了适于用来实现本发明实施方式的示例性智能音箱12的框图。图4显示的智能音箱12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,智能音箱12以通用计算设备的形式表现。智能音箱12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
智能音箱12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被智能音箱12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。智能音箱12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
智能音箱12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该智能音箱12交互的设备通信,和/或与使得该智能音箱12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,智能音箱12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与智能音箱12的其它模块通信。应当明白,尽管图4中未示出,可以结合智能音箱12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的语料处理方法:
也即,所述处理单元执行所述程序时实现:根据获取的第一语料文本以及第一特征语音确定所述第一语料文本与所述第一特征语音的映射关系,以形成映射关系库;将接收到的第二特征语音转换为第二语料文本,并提取所述第二语料文本的关键词,根据所述关键词确定匹配规则;按照所述匹配规则在所述映射关系库中查找与所述第二语料文本匹配的回应语音。
实施例五
本发明实施例五提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的语料处理方法:
也即,该程序被处理器执行时实现:根据获取的第一语料文本以及第一特征语音确定所述第一语料文本与所述第一特征语音的映射关系,以形成映射关系库;将接收到的第二特征语音转换为第二语料文本,并提取所述第二语料文本的关键词,根据所述关键词确定匹配规则;按照所述匹配规则在所述映射关系库中查找与所述第二语料文本匹配的回应语音。。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种语料处理方法,其特征在于,包括:
根据获取的第一语料文本以及第一特征语音确定所述第一语料文本与所述第一特征语音的映射关系,以形成映射关系库;
所述第一语料文本的个数和所述第一特征语音的个数分别至少为两个;
将接收到的第二特征语音转换为第二语料文本,并提取所述第二语料文本的关键词,根据所述关键词确定匹配规则;
按照所述匹配规则在所述映射关系库中查找与所述第二语料文本匹配的回应语音;
所述根据获取的第一语料文本以及第一特征语音确定所述第一语料文本与所述第一特征语音的映射关系,以形成映射关系库,包括:获取自定义的第一语料文本;基于所述自定义的第一语料文本录入第一特征语音;确定所述自定义第一语料和所述第一特征语音的映射关系,以形成映射关系库;其中,所述自定义的第一语料文本为智能音箱的开发人员预先设定,后台研发人员将第一语料文本输入至音箱服务器,音箱服务器对该第一语料文本内容进行分类,并针对不同类型的第一语料文本建立相应的语料库;所述第一特征语音包括针对第一语料文本录入的原始语音,同一个类型的第一语料文本由同一个主播录入,用户通过试听若干个主播的声音来选择自己喜欢的主播的声音录入的语料文本,或,通过安装在智能音箱或者与智能音箱有绑定关系的终端设备上的特定的应用程序来选择某个主播的声音录入的语料文本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述关键词确定匹配规则,包括:
根据所述关键词确定所述第二语料文本对应的任务请求类型;
按照设定的标准分别建立与所述任务请求类型相对应的匹配规则。
3.根据权利要求1所述的方法,其特征在于,所述按照所述匹配规则在所述映射关系库中查找与所述第二语料文本匹配的回应语音,包括:
收集用户在设定的时间段内的对回应语料的使用频率,根据所述使用频率和所述匹配规则确定所述回应语料的优先级;
根据所述优先级对所述映射关系库建立应答网络,基于所述应答网络和所述优先级确定所述第二语料文本的优先级,并查找与所述第二语料文本匹配的回应语音。
4.根据权利要求1-3任一项所述的方法,其特征在于,在按照所述匹配规则在所述映射关系库中查找与所述第二语料文本匹配的回应语音之后,还包括:
播报所述回应语音,接收并分析用户在设定的时间范围内对所述回应语音的反馈信息;
根据所述用户反馈信息中表征用户态度的词语来更新所述回应语音对应的回应语料的优先级。
5.根据权利要求1所述的方法,其特征在于,所述根据获取的第一语料文本以及第一特征语音确定所述第一语料文本与所述第一特征语音的映射关系,以形成映射关系库,还包括:
接收输入的第一特征语音;
将所述第一特征语音识别为对应的第一语料文本;
确定所述第一语料文本与所述第一特征语音的映射关系,以形成映射关系库。
6.一种语料处理装置,其特征在于,包括:
映射关系库确定模块,用于根据获取的第一语料文本以及第一特征语音确定所述第一语料文本与所述第一特征语音的映射关系,以形成映射关系库;
所述第一语料文本的个数和所述第一特征语音的个数分别至少为两个;
匹配规则确定模块,用于将接收到的第二特征语音转换为第二语料文本,并提取所述第二语料文本的关键词,根据所述关键词确定匹配规则;
回应语音确定模块,用于按照所述匹配规则在所述映射关系库中查找与所述第二语料文本匹配的回应语音;
所述根据获取的第一语料文本以及第一特征语音确定所述第一语料文本与所述第一特征语音的映射关系,以形成映射关系库,包括:获取自定义的第一语料文本;基于所述自定义的第一语料文本录入第一特征语音;确定所述自定义第一语料和所述第一特征语音的映射关系,以形成映射关系库;
其中,所述自定义的第一语料文本为智能音箱的开发人员预先设定,后台研发人员将第一语料文本输入至音箱服务器,音箱服务器对该第一语料文本内容进行分类,并针对不同类型的第一语料文本建立相应的语料库;所述第一特征语音包括针对第一语料文本录入的原始语音,同一个类型的第一语料文本由同一个主播录入,用户通过试听若干个主播的声音来选择自己喜欢的主播的声音录入的语料文本,或,通过安装在智能音箱或者与智能音箱有绑定关系的终端设备上的特定的应用程序来选择某个主播的声音录入的语料文本。
7.根据权利要求6所述的装置,其特征在于,所述匹配规则确定模块具体用于:
根据所述关键词确定所述第二语料文本对应的任务请求类型;
按照设定的标准分别建立与所述任务请求类型相对应的匹配规则。
8.一种智能音箱,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN201711429605.2A 2017-12-26 2017-12-26 语料处理方法、装置、智能音箱和存储介质 Active CN108153875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711429605.2A CN108153875B (zh) 2017-12-26 2017-12-26 语料处理方法、装置、智能音箱和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711429605.2A CN108153875B (zh) 2017-12-26 2017-12-26 语料处理方法、装置、智能音箱和存储介质

Publications (2)

Publication Number Publication Date
CN108153875A CN108153875A (zh) 2018-06-12
CN108153875B true CN108153875B (zh) 2022-03-11

Family

ID=62462240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711429605.2A Active CN108153875B (zh) 2017-12-26 2017-12-26 语料处理方法、装置、智能音箱和存储介质

Country Status (1)

Country Link
CN (1) CN108153875B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930998A (zh) * 2018-09-19 2020-03-27 上海博泰悦臻电子设备制造有限公司 语音互动方法、装置及车辆
CN109637529A (zh) * 2018-11-01 2019-04-16 平安科技(深圳)有限公司 基于语音的功能定位方法、装置、计算机设备及存储介质
CN109949797B (zh) * 2019-03-11 2021-11-12 北京百度网讯科技有限公司 一种训练语料的生成方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008128423A1 (fr) * 2007-04-19 2008-10-30 Shenzhen Institute Of Advanced Technology Système de dialogue intelligent et son procédé de réalisation

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198828B (zh) * 2013-04-03 2015-09-23 中金数据系统有限公司 语音语料库的构建方法和系统
CN104598445B (zh) * 2013-11-01 2019-05-10 腾讯科技(深圳)有限公司 自动问答系统和方法
CN105227790A (zh) * 2015-09-24 2016-01-06 北京车音网科技有限公司 一种语音应答方法、电子设备和系统
CN105630938A (zh) * 2015-12-23 2016-06-01 深圳市智客网络科技有限公司 一种智能问答系统
CN107342075A (zh) * 2016-07-22 2017-11-10 江苏泰格软件有限公司 一种语音控制执行aps系统指令的系统与方法
CN106128453A (zh) * 2016-08-30 2016-11-16 深圳市容大数字技术有限公司 一种机器人的智能识别语音自动应答方法及机器人
CN106469212B (zh) * 2016-09-05 2019-10-15 北京百度网讯科技有限公司 基于人工智能的人机交互方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008128423A1 (fr) * 2007-04-19 2008-10-30 Shenzhen Institute Of Advanced Technology Système de dialogue intelligent et son procédé de réalisation

Also Published As

Publication number Publication date
CN108153875A (zh) 2018-06-12

Similar Documents

Publication Publication Date Title
CN108509619B (zh) 一种语音交互方法及设备
CN106897428B (zh) 文本分类特征提取方法、文本分类方法及装置
CN110069608B (zh) 一种语音交互的方法、装置、设备和计算机存储介质
CN109165302B (zh) 多媒体文件推荐方法及装置
JP2020518861A (ja) 音声認識方法、装置、デバイス、及び記憶媒体
CN109145104B (zh) 用于对话交互的方法和装置
CN110415679B (zh) 语音纠错方法、装置、设备和存储介质
CN109979450B (zh) 信息处理方法、装置及电子设备
CN108153875B (zh) 语料处理方法、装置、智能音箱和存储介质
CN112530408A (zh) 用于识别语音的方法、装置、电子设备和介质
US10089898B2 (en) Information processing device, control method therefor, and computer program
CN102915493A (zh) 信息处理装置和方法
CN109710799B (zh) 语音交互方法、介质、装置和计算设备
CN109615009B (zh) 一种学习内容推荐方法及电子设备
CN108710653B (zh) 一种绘本朗读点播方法、装置及系统
CN110765313A (zh) 网络视频弹幕分类播放方法和系统
JP2021076818A (ja) 音声対話するための方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体
CN110473543B (zh) 一种语音识别方法、装置
CN111444321A (zh) 问答方法、装置、电子设备和存储介质
CN110263135B (zh) 一种数据交换匹配方法、装置、介质和电子设备
CN111427444B (zh) 一种智能设备的控制方法和设备
CN116343771A (zh) 一种基于知识图谱的音乐点播语音指令识别方法、装置
CN111373473B (zh) 一种电子设备进行语音识别方法及电子设备
CN114242047A (zh) 一种语音处理方法、装置、电子设备及存储介质
CN113539234A (zh) 语音合成方法、装置、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190128

Address after: 100085 East District, Second Floor, 33 Xiaoying West Road, Haidian District, Beijing

Applicant after: BEIJING KINGSOFT INTERNET SECURITY SOFTWARE Co.,Ltd.

Address before: 511400 Tian'an Science and Technology Industrial Building, Panyu Energy-saving Science Park, 555 North Panyu Avenue, Donghuan Street, Panyu District, Guangzhou City, Guangdong Province

Applicant before: GUANGZHOU LANBO INTELLIGENT TECHNOLOGY CO.,LTD.

GR01 Patent grant
GR01 Patent grant