CN111324626B - 基于语音识别的搜索方法、装置、计算机设备及存储介质 - Google Patents

基于语音识别的搜索方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111324626B
CN111324626B CN202010072352.3A CN202010072352A CN111324626B CN 111324626 B CN111324626 B CN 111324626B CN 202010072352 A CN202010072352 A CN 202010072352A CN 111324626 B CN111324626 B CN 111324626B
Authority
CN
China
Prior art keywords
target
result
text
resource
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010072352.3A
Other languages
English (en)
Other versions
CN111324626A (zh
Inventor
张钰
刘奇
宋碧霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN202010072352.3A priority Critical patent/CN111324626B/zh
Publication of CN111324626A publication Critical patent/CN111324626A/zh
Application granted granted Critical
Publication of CN111324626B publication Critical patent/CN111324626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种基于语音识别的搜索方法、装置、计算机设备及存储介质,方法包括:获取用户输入的目标语音数据;所述目标语音数据包括非目标资源语音数据;对所述目标语音数据进行语音识别,得到目标文本结果;根据所述目标文本结果在预设领域知识库中进行搜索,获取目标搜索结果,并将所述目标搜索结果提供给所述用户;其中,所述目标搜索结果包括目标资源及目标资源关联信息。本发明实施例的技术方案能够丰富基于语音识别的搜索功能,提升用户体验。

Description

基于语音识别的搜索方法、装置、计算机设备及存储介质
技术领域
本发明实施例涉及语音处理技术领域,尤其涉及一种基于语音识别的搜索方法、装置、计算机设备及存储介质。
背景技术
随着移动互联网和物联网的快速发展、软硬件技术的高速迭代以及音视频海量数据资源的不断增长,语音作为比文字更自然的表达方式,已成为了人机交互过程中不可或缺的一种手段。支持语音查找相关资料的智能终端产品也层出不穷。
在现有的智能终端产品中,根据用户语音进行搜索时,常用搜索方法有两种,一种搜索方法是创建说法规则,并结合预先定义的语义槽,如作者或篇名等定位用户想要搜索的资源。另外一种搜索方法是不对用户语音进行处理,直接将用户语音作为一个整体关键词进行搜索。
发明人在实现本发明的过程中,发现现有技术存在如下缺陷:上述两种搜索方法内容资源返回形式差,返回的搜索资源常常是未经处理的,影响用户体验。同时,上述两种搜索方法的搜索效率也较低,返回的搜索结果比较冗杂。由此可见,现有的基于语音识别的搜索方法功能较为单一,用户体验较差。
发明内容
本发明实施例提供一种基于语音识别的搜索方法、装置、计算机设备及存储介质,以丰富基于语音识别的搜索功能,提升用户体验。
第一方面,本发明实施例提供了一种基于语音识别的搜索方法,包括:
获取用户输入的目标语音数据;所述目标语音数据包括非目标资源语音数据;
对所述目标语音数据进行语音识别,得到目标文本结果;
根据所述目标文本结果在预设领域知识库中进行搜索,获取目标搜索结果,并将所述目标搜索结果提供给所述用户;
其中,所述目标搜索结果包括目标资源及目标资源关联信息。
第二方面,本发明实施例还提供了一种基于语音识别的搜索装置,包括:
目标语音数据获取模块,用于获取用户输入的目标语音数据;所述目标语音数据包括非目标资源语音数据;
目标文本结果生成模块,用于对所述目标语音数据进行语音识别,得到目标文本结果;
目标搜索结果提供模块,用于根据所述目标文本结果在预设领域知识库中进行搜索,获取目标搜索结果,并将所述目标搜索结果提供给所述用户;
其中,所述目标搜索结果包括目标资源及目标资源关联信息。
第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的基于语音识别的搜索方法。
第四方面,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所提供的基于语音识别的搜索方法。
本发明实施例通过获取用户输入的,包括非目标资源语音数据的目标语音数据,并对目标语音数据进行语音识别得到目标文本结果,以根据目标文本结果在预设领域知识库中进行搜索包括目标资源及目标资源关联信息的目标搜索结果,并将获取到的目标搜索结果提供给用户,解决现有基于语音识别的搜索方法功能单一且用户体验较差等问题,从而丰富基于语音识别的搜索功能,提升用户体验。
附图说明
图1是本发明实施例一提供的一种基于语音识别的搜索方法的流程图;
图2a是本发明实施例二提供的一种基于语音识别的搜索方法的流程图;
图2b是本发明实施例二提供的一种预设领域知识库的效果示意图;
图2c是本发明实施例二提供的一种基于语音搜索诗歌散文的流程示意图;
图3是本发明实施例三提供的一种基于语音识别的搜索装置的示意图;
图4为本发明实施例四提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本发明实施例一提供的一种基于语音识别的搜索方法的流程图,本实施例可适用于根据用户语音提供丰富搜索结果的情况,该方法可以由基于语音识别的搜索装置来执行,该装置可以由软件和/或硬件的方式来实现,并一般可集成在计算机设备中,与用于完成语音搜索功能的客户端配合使用。相应的,如图1所示,该方法包括如下操作:
S110、获取用户输入的目标语音数据;所述目标语音数据包括非目标资源语音数据。
其中,目标语音数据即为用户对语音搜索客户端输入的,用于语音搜索客户端搜索目标资源的语音数据。非目标资源语音数据可以是与预设领域知识库中存储的资源文本数据不完全匹配的或表达有误的语音数据。示例性的,假设预设领域知识库中存储了资源文本“轻轻的我走了,正如我轻轻的来”,则用户输入的“轻轻的你走了,正如我轻轻的来”或“正如我轻轻的来,轻轻的你走了”均可以是非目标资源语音数据。
考虑到用户的多种搜索需求,在本发明实施例中,用户利用语音搜索客户端搜索资源时,无需向语音搜索客户端按照严格表达方式输入语音,可直接输入包括非目标资源语音数据的目标语音数据。语音搜索客户端接收到用户输入的目标语音数据后,可将目标语音数据发送至服务器端进行搜索。可选的,服务器端可以是云端服务器。
S120、对所述目标语音数据进行语音识别,得到目标文本结果。
当服务器端获取到目标语音数据后,可以调用识别引擎,利用声学模型和语言模型对目标语音数据进行语音识别,得到目标文本结果。
S130、根据所述目标文本结果在预设领域知识库中进行搜索,获取目标搜索结果,并将所述目标搜索结果提供给所述用户。
其中,所述目标搜索结果包括目标资源及目标资源关联信息。
其中,目标资源即为用户想要搜索的资源,如用户输入目标语音数据“悯农”,则目标资源可以是“锄禾日当午,汗滴禾下土。谁知盘中餐,粒粒皆辛苦”对应的文本数据或音视频数据。目标资源关联信息可以是目标资源关联的数据信息。例如,假设目标资源为“悯农”,则目标资源关联信息可以是:作者:李绅(唐)。假设目标资源为“勇气”,则目标资源关联信息可以是:演唱者:梁某某;作词:瑞某某;作曲:光某某;发行时间:2000年8月。预设领域知识库可以是根据搜索需求涉及的领域预先构建的知识库。例如,假设搜索需求涉及的领域为诗歌散文领域,则预设领域知识库可以是诗歌散文领域知识库。
需要说明的是,不同的用户有不同的搜索需求。例如,儿童发音不标准,导致语音数据出现语义理解难度。或者,用户只记得搜索资源相关的部分数据,如用户只记得“锄禾日当午”,但不知道该诗文的名称“悯农”,将“锄禾日当午的诗文名称是什么”作为目标语音数据。又例如,用户想搜索“勇气”这首歌,将歌词里“爱真的需要勇气”记为“爱从来需要勇气”,将“爱从来需要勇气”作为目标语音数据等。也即,本发明实施例中的目标语音数据可以是包括错字、漏字、前后顺序颠倒等导致语义不理解情况的各种类型的语音数据,这些语音数据与预设领域知识库中存储的资源文本数据是不完全匹配的,或者是表达有误的。用户输入上述目标语音数据后,服务器端均可以搜索到用户想要搜索的对应的目标资源以及目标资源关联信息。也即,本发明实施例提供的基于语音识别的搜索方法支持模糊语音搜索功能,同时,本发明实施例为用户提供的搜索结果不仅包括目标资源,还可以包括目标资源关联信息,因此,本发明实施例为用户提供的搜索结果内容更加丰富,更能满足用户的搜索需求,从而提升用户体验。
本发明实施例通过获取用户输入的,包括非目标资源语音数据的目标语音数据,并对目标语音数据进行语音识别得到目标文本结果,以根据目标文本结果在预设领域知识库中进行搜索包括目标资源及目标资源关联信息的目标搜索结果,并将获取到的目标搜索结果提供给用户,解决现有基于语音识别的搜索方法功能单一且用户体验较差等问题,从而丰富基于语音识别的搜索功能,提升用户体验。
实施例二
图2a是本发明实施例二提供的一种基于语音识别的搜索方法的流程图,本实施例以上述实施例为基础进行具体化,在本实施例中,给出了根据所述目标文本结果在预设领域知识库中进行搜索的具体实现方式。相应的,如图2a所示,本实施例的方法可以包括:
S210、获取用户输入的目标语音数据;所述目标语音数据包括非目标资源语音数据。
S220、对所述目标语音数据进行语音识别,得到目标文本结果。
S230、根据所述目标文本结果在预设领域知识库中进行搜索,获取目标搜索结果,并将所述目标搜索结果提供给所述用户。
相应的,S230具体可以包括以下操作:
S231、采用预设分词工具对所述目标文本结果进行分词处理,得到分词结果。
其中,预设分词工具可以是python分词工具jieba等,本发明实施例并不对预设分词工具的具体工具类型进行限定。
具体的,服务器端得到目标文本结果后,可以采用采用预设分词工具对目标文本结果进行分词处理,得到分词结果。
S232、采用文本相似度优化算法计算所述分词结果与所述预设领域知识库中的对应文本资源的相似度。
其中,文本相似度优化算法可以是结合TF-IDF(Term Frequency–InverseDocument Frequency,词频逆文本频率指数)、JSC(Jaccard similarity coefficient,Jaccard相似系数)、DSC(Dice similarity coefficient,戴斯相似性系数)及MED(MinimumEdit Distance,编辑距离)或其他影响因素等优点,对文本相似度算法进行优化得到的算法。
S233、在确定所述相似度满足设定阈值区间范围的情况下,根据所述预设领域知识库中的对应文本资源更新所述分词结果。
其中,设定阈值区间范围可以是根据实际需求设定的区间范围,例如,设定阈值区间范围可以是[70%-95%],本发明实施例并不对设定阈值区间范围的具体数值进行限定。
为了避免目标语音数据中包括的非目标资源语音数据引起语义理解问题,可以采用文本相似度优化算法计算分词结果与预设领域知识库中的对应文本资源的相似度。如果确定相似度满足设定阈值区间范围,则可以根据预设领域知识库中的对应文本资源更新所述分词结果。
示例性的,假设目标语音数据为“轻轻的你走了,正如我轻轻的来,我挥一挥衣袖”,其对应的其中一个分词结果为“轻轻的你走了”,该目标语音数据在预设领域知识库中的对应文本资源为“轻轻的我走了”,采用文本相似度优化算法计算“轻轻的你走了”与预设领域知识库中的对应文本资源“轻轻的我走了”的相似度,得到的相似度为92%。如果设定阈值区间范围为[70%-95%],则相似度满足设定阈值区间范围,可以根据预设领域知识库中的对应文本资源更新分词结果。例如,采用“轻轻的我走了”替换“轻轻的你走了”,实现对分词结果的更新。
需要说明的是,如果相似度不满足设定阈值区间范围,可以分情况进行处理。例如,如果相似度小于设定阈值区间范围的最小值,则可以判断目标语音数据涉及的领域是否为服务器端支持的搜索领域。如果目标语音数据涉及的领域是服务器端支持的搜索领域,则可以继续处理;否则,可以获取存储的应答话术作为目标搜索结果提供给用户。示例性的,应答话术可以是“对不起,您搜索的资源已经超出我的领域范围”。如果相似度为100%,表明用户表达清晰无误,则可以不对分词结果进行更新。
S234、根据所述分词结果及预设说法规则确定所述用户的意图。
S235、根据所述用户的意图确定各语义槽对应的槽值。
S236、根据所述各语义槽对应的槽值在预设领域知识库中进行搜索,获取目标搜索结果,并将所述目标搜索结果提供给所述用户。
其中,预设说法规则可以是预先设定的,用于判断用户意图的规则,本发明实施例并不对预设说法规则的具体内容进行限定。
进一步的,可以根据分词结果以及预设说法规则确定用户的意图,并根据用户的意图确定各语义槽对应的槽值,以根据各语义槽对应的槽值在预设领域知识库中进行搜索获取目标搜索结果,并将目标搜索结果提供给用户。
在本发明的一个可选实施例中,所述根据所述目标文本结果在预设领域知识库中进行搜索,获取目标搜索结果,可以包括:如果确定未搜索到所述目标搜索结果,则根据述目标文本结果向信源方请求搜索,以获取所述目标搜索结果,或,将预先存储的固定话术作为所述目标搜索结果。
其中,信源方可以是提供目标资源的数据提供者,信源方可以是提供互联网数据的服务器等,也可以是提供离线数据服务器等,只要可以提供目标资源即可,本发明实施例并不对信源方的具体类型进行限定。
相应的,如果服务器在预设领域知识库中无法获取目标搜索结果,可以根据目标文本结果向各个信源方请求搜索,以获取对应的目标搜索结果提供给用户。或者,也还可以将预先存储的固定话术作为目标搜索结果提供给用户。示例性的,固定话术可以是“对不起,暂时搜索不到您请求的资源,请重新输入语音”。
在本发明的一个可选实施例中,所述目标语音数据为教学领域数据;所述目标资源为目标教学资源;所述目标资源关联信息包括目标教学资源篇名、目标教学资源作者、目标教学资源时间信息、目标教学资源评论信息、目标教学资源考点信息、目标教学资源典型数据信息及目标教学资源文本内容中的至少一种。
其中,教学领域数据可以是教学领域涉及到的资源数据,如诗歌散文数据、美术资源数据、音乐教学数据、数学题解数据及英文教学数据等,本发明实施例并不对教学领域数据的具体类型进行限定。目标教学资源可以是诸如诗歌散文、美术资源、音乐资源、数学资源或英文资源等,本发明实施例对此同样不进行限制。目标教学资源篇名可以是目标教学资源的篇名或名称。目标教学资源作者可以是目标教学资源的作者或发布者。目标教学资源时间信息可以是目标教学资源相关的时间信息,如文章的发表时间或教学资源的网络发布时间等。目标教学资源评论信息可以是目标教学资源相关的评论信息,如文章的读后感或相关资源的用户评论信息等。目标教学资源考点信息可以是目标教学资源涉及到的考点信息。目标教学资源典型数据信息可以是目标教学资源的典型数据,如诗歌散文的经典名句或数学领域中经典试题等。目标教学资源文本内容即为目标教学资源对应的文本数据,如诗歌散文或英文课文的正文内容等。
在本发明实施例中,可选的,语音搜索客户端与服务器端可以实现教学领域数据的语音搜索功能。用户可以向语音搜索客户端输入教学领域相关的目标语音数据,服务器端获取到用户输入的目标语音数据后,可以向用户返回目标教学资源,同时,还可以返回目标教学资源篇名、目标教学资源作者、目标教学资源时间信息、目标教学资源评论信息、目标教学资源考点信息、目标教学资源典型数据信息及目标教学资源文本内容中的至少一种目标资源关联信息。
在本发明的一个可选实施例中,在所述获取用户输入的目标语音数据之前,还可以包括:爬取所述目标资源及所述目标资源关联信息的文本数据源;根据爬取的所述文本数据源构建预设领域本体,并根据所述预设领域本体构建所述预设领域知识库。
其中,预设领域本体可以用于构建预设领域知识库。
可以理解的是,服务器端根据获取的目标文本结果在预设领域知识库中进行搜索以实现语音搜索功能之前,首先需要完成预设领域知识库的构建。具体的,可以首先对数据来源做准备,即爬取目标资源及目标资源关联信息的文本数据源。如果目标语音数据为教学领域数据,目标资源为目标教学资源,如诗歌散文资源,在爬取文本数据源时,除了爬取相关作者、篇名、年代、读后感等常用数据外,为了支持查询常考知识点查询,还可以从各类教辅资料中爬取相应文章考点。为支持经典语句查询和读后感查询,还可以从各类诗歌散文摘抄网爬取篇名、作者及对应的经典名句等。爬取到文本数据源后,可以根据文本数据源构建预设领域本体,从而根据预设领域本体构建预设领域知识库。
可选的,如果目标教学资源为诗歌散文资源,可以通过protégé构建诗歌散文领域本体,以提升搜索效率。其中本体类的划分与语义槽()基本保持一致,矩形框表示预设领域知识库的实体,矩形框之间的连线表示实体之间的关系。示例性的,实线带箭头连线可以表示实例关系,虚线带箭头连线可以表示继承关系。属性关系可以包括但不限于:正文内容有、知识点有、读后感有、表达了、作者是、创作、该年代经典诗歌散文有、写于、该句来自于及经典语句有等。其中需标记为Transitive(传递)的可以包括但不限于:正文内容有、知识点有、读后感有、表达了、创作、写于及经典语句有,需标记为Inverse of(逆向的)的可以包括但不限于:作者是、该年代经典诗歌散文有及该句来自于。图2b是本发明实施例二提供的一种预设领域知识库的效果示意图,在一个具体的例子中,如图2b所示,以朱XX《背影》和徐XX《再别康桥》两篇文章为例说明。预设领域知识库可以将文本数据源根据标点将正文内容拆分成各句,并囊括篇名、年代、作者、读后感等内容。除此之外,还可以包括主体思想、表达情感、经典语句或核心考点等内容。
需要说明的是,现有的语音搜索方法由于过于依赖基于规则的语义说法,缺少相关知识库的构建,从而导致搜索方式过于死板。本发明实施例通过对预设领域知识库的构建,可以实现新增支持查询经典语句、按诗歌散文内容查询、查询常考知识点、查询文章概要及表达情感及查询读后感等功能,语音搜索功能更加丰富,能够满足用户多样化的语音搜索需求。
在本发明的一个可选实施例中,在所述根据所述预设领域本体构建所述预设领域知识库之后,还可以包括:获取所述文本数据源对应的音视频数据源;建立所述文本数据源与对应的所述音视频数据源之间的映射关系。
可选的,为了进一步丰富语音搜索功能,预设领域知识库构建完成后,还可以获取文本数据源对应的音视频数据源,以建立文本数据源与对应的音视频数据源之间的映射关系。这样设置的好处是:可以将文本数据源对应的音视频数据同时作为目标搜索结果提供给用户。需要说明的是,可以根据实际需求确定目标搜索结果的具体类型,如仅将文本数据、音频数据或视频数据作为目标搜索结果,或者,将上述三种数据两两任意组合作为目标搜索结果,或者,也还可以将文本数据、音频数据或视频数据三种类型的数据同时作为目标搜索结果,本发明实施例对此并不进行限制。另外还需说明的是,可以采用TTS(Text ToSpeech,从文本到语音)播报的形式将目标搜索结果提供给用户。
图2c是本发明实施例二提供的一种基于语音搜索诗歌散文的流程示意图。在一个具体的例子中,如图2c所示,当用户发起语音请求时,服务端可以调用识别引擎,利用声学模型和语言模型对目标语音数据进行ASR(Automatic Speech Recognition,自动语音识别)处理,以将目标语音数据转为目标文本结果。然后借助中英文混合分词能力较好的python分词工具jieba对目标文本结果进行分词处理。并结合TF-IDF、JSC、DSC及MED等优点,优化文本相似度算法,以计算用户表达有误的识别结果与诗歌散文领域知识库中的正确对应内容的相似度。当相似度满足设定阈值区间范围时,采用诗歌散文领域知识库中的正确对应内容更新原先的识别结果,从而解决说错字、漏字、前后说颠倒而导致的语义不理解等问题。接下来,服务器端可以用更新后的识别文本,依据丰富的说法规则判断用户的意图,并解析出各语义槽所对应的槽值,以根据解析出的语义槽的槽值去诗歌散文领域知识库中搜索相应的目标搜索结果。上述流程也即NLU(Natural Language Understanding,自然语言理解)过程。服务器端获取到目标搜索结果后,可以依据语义和目标搜索结果进行TTS播报,并将音频、视频等资源一并下发至客户端。下发时,支持在下发文本、音频及视频等内容资源的同时携带篇名、作者、文章内容等诗歌散文的关联信息。需要说明的是,服务端还可以实现查询当前播放诗歌散文关联信息的功能。示例性的,客户端当前正在播放“再别康桥”的诗文,用户向客户端播放完毕后,向客户端发送目标语音数据“刚刚播放的文章叫什么?”。此时,服务端接收到用户输入的目标语音数据后,可以通过基于上下文的多轮对话功能向用户提供目标搜索结果,该目标搜索结果可以是“再别康桥”的篇名、作者或经典名句等关联信息。
由此可见,上述基于语音识别的搜索方法可以支持的用语音精准搜索诗歌散文支持的功能点包括:(1)、用篇名、作者或年代等关联信息查询并朗诵诗歌散文;(2)、查询诗歌散文的关联信息,包括对诗歌散文年代、作者、主体思想或读后感等关联信息的查询;(3)、查询诗歌散文经典语句,例如,目标语音数据为“再别康桥”最经典的一句话是什么,服务器端则可以将“再别康桥”的经典名句作为目标搜索结果提供给用户;(4)、可以按诗歌散文内容查询相应的诗歌散文。例如,目标语音数据为“轻轻的我走了,正如我轻轻的来,出自哪篇文章”,服务器端则可以将“轻轻的我走了,正如我轻轻的来,出自徐XX的‘再别康桥’”作为目标搜索结果提供给用户;(5)还可以支持查询常考知识点、读后感、文章概要及表达情感等关联信息。
综上,本发明实施例所提供的基于语音识别的搜索方法可支持模糊搜索功能,能够实现查询目标教学资源信息、按目标教学资源内容查询等语音搜索功能,搜索结果内容更加丰富,涵盖范围更广,可提升智能音箱、故事学习机等各种智能终端产品的搜索能力,更适用于儿童或青少年等学习用户的语音搜索需求,提升了搜索功能的智能性和用户体验感。
采用上述技术方案,在依据目标语音数据得到目标文本结果后,采用预设分词工具对目标文本结果进行分词处理得到分词结果,并采用文本相似度优化算法计算分词结果与预设领域知识库中的对应文本资源的相似度,在确定相似度满足设定阈值区间范围的情况下,根据预设领域知识库中的对应文本资源更新所述分词结果,从而根据最终的分词结果及预设说法规则确定用户的意图,并根据用户的意图确定各语义槽对应的槽值,从而根据各语义槽对应的槽值在预设领域知识库中进行搜索,获取目标搜索结果,并将目标搜索结果提供给用户,扩展了基于语音识别的搜索功能,能够有效提升用户体验。
需要说明的是,以上各实施例中各技术特征之间的任意排列组合也属于本发明的保护范围。
实施例三
图3是本发明实施例三提供的一种基于语音识别的搜索装置的示意图,如图3所示,所述装置包括:目标语音数据获取模块310、目标文本结果生成模块320以及目标搜索结果提供模块330,其中:
目标语音数据获取模块310,用于获取用户输入的目标语音数据;所述目标语音数据包括非目标资源语音数据;
目标文本结果生成模块320,用于对所述目标语音数据进行语音识别,得到目标文本结果;
目标搜索结果提供模块330,用于根据所述目标文本结果在预设领域知识库中进行搜索,获取目标搜索结果,并将所述目标搜索结果提供给所述用户;
其中,所述目标搜索结果包括目标资源及目标资源关联信息。
本发明实施例通过获取用户输入的,包括非目标资源语音数据的目标语音数据,并对目标语音数据进行语音识别得到目标文本结果,以根据目标文本结果在预设领域知识库中进行搜索包括目标资源及目标资源关联信息的目标搜索结果,并将获取到的目标搜索结果提供给用户,解决现有基于语音识别的搜索方法功能单一且用户体验较差等问题,从而丰富基于语音识别的搜索功能,提升用户体验。
可选的,目标搜索结果提供模块330包括:分词结果获取单元,用于采用预设分词工具对所述目标文本结果进行分词处理,得到分词结果;用户意图确定单元,用于根据所述分词结果及预设说法规则确定所述用户的意图;语义槽槽值确定单元,用于根据所述用户的意图确定各语义槽对应的槽值;目标搜索结果搜索单元,用于根据所述各语义槽对应的槽值在预设领域知识库中进行搜索。
可选的,目标搜索结果提供模块330还包括:相似度计算单元,用于采用文本相似度优化算法计算所述分词结果与所述预设领域知识库中的对应文本资源的相似度;分词结果更新单元,用于在确定所述相似度满足设定阈值区间范围的情况下,根据所述预设领域知识库中的对应文本资源更新所述分词结果。
可选的,目标搜索结果提供模块330包括:目标搜索结果处理单元,用于如果确定未搜索到所述目标搜索结果,则根据述目标文本结果向信源方请求搜索,以获取所述目标搜索结果,或,将预先存储的固定话术作为所述目标搜索结果。
可选的,所述目标语音数据为教学领域数据;所述目标资源为目标教学资源;所述目标资源关联信息包括目标教学资源篇名、目标教学资源作者、目标教学资源时间信息、目标教学资源评论信息、目标教学资源考点信息、目标教学资源典型数据信息及目标教学资源文本内容中的至少一种。
可选的,所述装置还包括:文本数据源爬取模块,用于爬取所述目标资源及所述目标资源关联信息的文本数据源;预设领域知识库构建模块,用于根据爬取的所述文本数据源构建预设领域本体,并根据所述预设领域本体构建所述预设领域知识库。
可选的,所述装置还包括:音视频数据源获取模块,用于获取所述文本数据源对应的音视频数据源;映射关系建立模块,用于建立所述文本数据源与对应的所述音视频数据源之间的映射关系。
上述基于语音识别的搜索装置可执行本发明任意实施例所提供的基于语音识别的搜索方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的基于语音识别的搜索方法。
由于上述所介绍的基于语音识别的搜索装置为可以执行本发明实施例中的基于语音识别的搜索方法的装置,故而基于本发明实施例中所介绍的基于语音识别的搜索方法,本领域所属技术人员能够了解本实施例的基于语音识别的搜索装置的具体实施方式以及其各种变化形式,所以在此对于该基于语音识别的搜索装置如何实现本发明实施例中的基于语音识别的搜索方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中基于语音识别的搜索方法所采用的装置,都属于本申请所欲保护的范围。
实施例四
图4为本发明实施例四提供的一种计算机设备的结构示意图。图4示出了适于用来实现本发明实施方式的计算机设备412的框图。图4显示的计算机设备412仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。计算机设备412典型的是承担服务器功能的计算设备。
如图4所示,计算机设备412以通用计算设备的形式表现。计算机设备412的组件可以包括但不限于:一个或者多个处理器416,存储装置428,连接不同系统组件(包括存储装置428和处理器416)的总线418。
总线418表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
计算机设备412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备412访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置428可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)430和/或高速缓存存储器432。计算机设备412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统434可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储装置428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块426的程序436,可以存储在例如存储装置428中,这样的程序模块426包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块426通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备412也可以与一个或多个外部设备414(例如键盘、指向设备、摄像头、显示器424等)通信,还可与一个或者多个使得用户能与该计算机设备412交互的设备通信,和/或与使得该计算机设备412能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口422进行。并且,计算机设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器420通过总线418与计算机设备412的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备412使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arraysof Independent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器416通过运行存储在存储装置428中的程序,从而执行各种功能应用以及数据处理,例如实现本发明上述实施例所提供的基于语音识别的搜索方法。
也即,所述处理单元执行所述程序时实现:获取用户输入的目标语音数据;所述目标语音数据包括非目标资源语音数据;对所述目标语音数据进行语音识别,得到目标文本结果;根据所述目标文本结果在预设领域知识库中进行搜索,获取目标搜索结果,并将所述目标搜索结果提供给所述用户;其中,所述目标搜索结果包括目标资源及目标资源关联信息。
实施例五
本发明实施例五还提供一种存储计算机程序的计算机存储介质,所述计算机程序在由计算机处理器执行时用于执行本发明上述实施例任一所述的基于语音识别的搜索方法:获取用户输入的目标语音数据;所述目标语音数据包括非目标资源语音数据;对所述目标语音数据进行语音识别,得到目标文本结果;根据所述目标文本结果在预设领域知识库中进行搜索,获取目标搜索结果,并将所述目标搜索结果提供给所述用户;其中,所述目标搜索结果包括目标资源及目标资源关联信息。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory,ROM)、可擦式可编程只读存储器((Erasable Programmable ReadOnly Memory,EPROM)或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种基于语音识别的搜索方法,其特征在于,包括:
获取用户输入的目标语音数据;所述目标语音数据包括非目标资源语音数据;
对所述目标语音数据进行语音识别,得到目标文本结果;
根据所述目标文本结果在预设领域知识库中进行搜索,获取目标搜索结果,并将所述目标搜索结果提供给所述用户;
其中,所述目标搜索结果包括目标资源及目标资源关联信息;
所述根据所述目标文本结果在预设领域知识库中进行搜索,包括:
采用预设分词工具对所述目标文本结果进行分词处理,得到分词结果;
根据所述分词结果及预设说法规则确定所述用户的意图;
根据所述用户的意图确定各语义槽对应的槽值;
根据所述各语义槽对应的槽值在预设领域知识库中进行搜索;
在所述采用预设分词工具对所述目标文本结果进行分词处理,得到分词结果之后,还包括:
采用文本相似度优化算法计算所述分词结果与所述预设领域知识库中的对应文本资源的相似度;
在确定所述相似度满足设定阈值区间范围的情况下,根据所述预设领域知识库中的对应文本资源更新所述分词结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本结果在预设领域知识库中进行搜索,获取目标搜索结果,包括:
如果确定未搜索到所述目标搜索结果,则根据述目标文本结果向信源方请求搜索,以获取所述目标搜索结果,或,
将预先存储的固定话术作为所述目标搜索结果。
3.根据权利要求1-2任一所述的方法,其特征在于,所述目标语音数据为教学领域数据;所述目标资源为目标教学资源;所述目标资源关联信息包括目标教学资源篇名、目标教学资源作者、目标教学资源时间信息、目标教学资源评论信息、目标教学资源考点信息、目标教学资源典型数据信息及目标教学资源文本内容中的至少一种。
4.根据权利要求3所述的方法,其特征在于,在所述获取用户输入的目标语音数据之前,还包括:
爬取所述目标资源及所述目标资源关联信息的文本数据源;
根据爬取的所述文本数据源构建预设领域本体,并根据所述预设领域本体构建所述预设领域知识库。
5.根据权利要求4所述的方法,其特征在于,在所述根据所述预设领域本体构建所述预设领域知识库之后,还包括:
获取所述文本数据源对应的音视频数据源;
建立所述文本数据源与对应的所述音视频数据源之间的映射关系。
6.一种基于语音识别的搜索装置,其特征在于,包括:
目标语音数据获取模块,用于获取用户输入的目标语音数据;所述目标语音数据包括非目标资源语音数据;
目标文本结果生成模块,用于对所述目标语音数据进行语音识别,得到目标文本结果;
目标搜索结果提供模块,用于根据所述目标文本结果在预设领域知识库中进行搜索,获取目标搜索结果,并将所述目标搜索结果提供给所述用户;
其中,所述目标搜索结果包括目标资源及目标资源关联信息;
所述目标搜索结果提供模块包括:分词结果获取单元,用于采用预设分词工具对所述目标文本结果进行分词处理,得到分词结果;用户意图确定单元,用于根据所述分词结果及预设说法规则确定所述用户的意图;语义槽槽值确定单元,用于根据所述用户的意图确定各语义槽对应的槽值;目标搜索结果搜索单元,用于根据所述各语义槽对应的槽值在预设领域知识库中进行搜索;
所述目标搜索结果提供模块还包括:相似度计算单元,用于采用文本相似度优化算法计算所述分词结果与所述预设领域知识库中的对应文本资源的相似度;分词结果更新单元,用于在确定所述相似度满足设定阈值区间范围的情况下,根据所述预设领域知识库中的对应文本资源更新所述分词结果。
7.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的基于语音识别的搜索方法。
8.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的基于语音识别的搜索方法。
CN202010072352.3A 2020-01-21 2020-01-21 基于语音识别的搜索方法、装置、计算机设备及存储介质 Active CN111324626B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010072352.3A CN111324626B (zh) 2020-01-21 2020-01-21 基于语音识别的搜索方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010072352.3A CN111324626B (zh) 2020-01-21 2020-01-21 基于语音识别的搜索方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111324626A CN111324626A (zh) 2020-06-23
CN111324626B true CN111324626B (zh) 2022-07-12

Family

ID=71167227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010072352.3A Active CN111324626B (zh) 2020-01-21 2020-01-21 基于语音识别的搜索方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111324626B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735406B (zh) * 2020-12-23 2022-10-28 青岛海尔科技有限公司 设备的控制方法及装置、存储介质及电子装置
CN113204685A (zh) * 2021-04-25 2021-08-03 Oppo广东移动通信有限公司 资源信息获取方法及装置、可读存储介质、电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599278A (zh) * 2016-12-23 2017-04-26 北京奇虎科技有限公司 应用搜索意图的识别方法及装置
CN108170859A (zh) * 2018-01-22 2018-06-15 北京百度网讯科技有限公司 语音查询的方法、装置、存储介质及终端设备
CN108388650A (zh) * 2018-02-28 2018-08-10 百度在线网络技术(北京)有限公司 基于需求的搜索处理方法、装置和智能设备
CN110322299A (zh) * 2018-03-28 2019-10-11 北京京东尚科信息技术有限公司 商品搜索方法及装置、电子设备、存储介质
CN110334271A (zh) * 2019-05-21 2019-10-15 北京奇艺世纪科技有限公司 一种搜索结果优化方法、系统、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599278A (zh) * 2016-12-23 2017-04-26 北京奇虎科技有限公司 应用搜索意图的识别方法及装置
CN108170859A (zh) * 2018-01-22 2018-06-15 北京百度网讯科技有限公司 语音查询的方法、装置、存储介质及终端设备
CN108388650A (zh) * 2018-02-28 2018-08-10 百度在线网络技术(北京)有限公司 基于需求的搜索处理方法、装置和智能设备
CN110322299A (zh) * 2018-03-28 2019-10-11 北京京东尚科信息技术有限公司 商品搜索方法及装置、电子设备、存储介质
CN110334271A (zh) * 2019-05-21 2019-10-15 北京奇艺世纪科技有限公司 一种搜索结果优化方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN111324626A (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
US10417344B2 (en) Exemplar-based natural language processing
CN110462730B (zh) 促进以多种语言与自动化助理的端到端沟通
WO2021232725A1 (zh) 基于语音交互的信息核实方法、装置、设备和计算机存储介质
US11354521B2 (en) Facilitating communications with automated assistants in multiple languages
EP3032532B1 (en) Disambiguating heteronyms in speech synthesis
US9805718B2 (en) Clarifying natural language input using targeted questions
CN107210035B (zh) 语言理解系统和方法的生成
JP6535349B2 (ja) 以前の対話行為を使用する自然言語処理における文脈解釈
JP5142720B2 (ja) デバイスの認知的に過負荷なユーザのインタラクティブ会話型対話
US9734193B2 (en) Determining domain salience ranking from ambiguous words in natural speech
JP7300435B2 (ja) 音声インタラクションするための方法、装置、電子機器、およびコンピュータ読み取り可能な記憶媒体
US20130246392A1 (en) Conversational System and Method of Searching for Information
WO2018045646A1 (zh) 基于人工智能的人机交互方法和装置
JP2023040118A (ja) 作成者が提供したコンテンツに基づいて対話型ダイアログアプリケーションを調整すること
Wu et al. Research on business English translation framework based on speech recognition and wireless communication
McTear et al. Voice application development for Android
CN110929023B (zh) 动态概要生成器
US11604929B2 (en) Guided text generation for task-oriented dialogue
CN111951782A (zh) 语音问答方法及装置、计算机可读存储介质和电子设备
CN111324626B (zh) 基于语音识别的搜索方法、装置、计算机设备及存储介质
CN108710653B (zh) 一种绘本朗读点播方法、装置及系统
CN110647613A (zh) 一种课件构建方法、装置、服务器和存储介质
JP2023027749A (ja) 放送スタイルを決定する方法、装置、機器、及びコンピュータ記憶媒体
US20210141865A1 (en) Machine learning based tenant-specific chatbots for performing actions in a multi-tenant system
WO2021161856A1 (ja) 情報処理装置及び情報処理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 215021 building 14, Tengfei Science Park, No. 388, Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215021 building 14, Tengfei Science Park, No. 388, Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant