CN113722447B - 一种基于多策略匹配的语音搜索方法 - Google Patents
一种基于多策略匹配的语音搜索方法 Download PDFInfo
- Publication number
- CN113722447B CN113722447B CN202111293241.6A CN202111293241A CN113722447B CN 113722447 B CN113722447 B CN 113722447B CN 202111293241 A CN202111293241 A CN 202111293241A CN 113722447 B CN113722447 B CN 113722447B
- Authority
- CN
- China
- Prior art keywords
- score
- user
- text
- documents
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000011156 evaluation Methods 0.000 claims abstract description 4
- 238000012216 screening Methods 0.000 claims abstract description 4
- 230000006399 behavior Effects 0.000 claims description 12
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多策略匹配的语音搜索方法。该方法包括获取用户输入的语音,并生成可能的所有文本,对所有文本分别进行通顺度评价打分,筛选K个得分最高的文本作为查询候选文本;对K个查询候选文本分别进行检索,每一查询候选文本取检索后的N个文档,利用文本匹配模型对每一查询候选文本与其对应的N个文档进行相关性打分,共得到K*N个文档及其对应的相关性得分;对K*N个文档的文本得分分别进行计算,选择文本得分最高的文档作为第一推荐文档推荐给用户。本发明扩大了搜索范围,提高搜索准确率,减少搜索空间,提高搜索速度,加强对用户问题的理解,提升用户体验。
Description
技术领域
本发明涉及语音搜索技术领域,具体涉及一种基于多策略匹配的语音搜索方法。
背景技术
在人机交互环节中,语音交互一直占有重要地位。目前随着语音识别技术的发展,越来越多的移动应用都在其内部植入了语音搜索功能,极大地方便了用户的搜索与查询,显著改善用户的产品体验。
现有的语音搜索技术,往往先通过语音识别能力将语音声纹转为文本格式,再经过传统的文本匹配或检索找出与查询问题相关的文档,经过一定的策略排序后最终返回给用户。其中,语音转文本的过程主要是通过拼音匹配的方式进行的,由于存在以下原因:1)语音识别准确率受限;2)用户发音不标准;3)汉语中存在大量同音字词等,会导致转成的文本中存在识别错误的字或词,或者不符合上下文情景的词或短语,最终导致搜索结果准确性降低;同时,缺少用户历史查询信息的支持,难以准确识别用户意图,导致搜索结果即便是准确的,仍然不能满足用户需求,最终降低了用户体验。
发明内容
本发明的目的是针对现有技术存在的不足,提供一种基于多策略匹配的语音搜索方法。
为实现上述目的,本发明提供了一种基于多策略匹配的语音搜索方法,包括:
获取用户输入的语音,所述语音经过语音识别生成文本,如所述用户输入的语音中存在同音字,则在语音识别后生成与同音字对应的所有文本,利用语言通顺度模型对所有文本分别进行通顺度评价打分,以获得每一文本的通顺度得分,根据所述通顺度得分对所有文本由高到低进行排序,筛选前K个文本作为查询候选文本;
对K个查询候选文本分别进行检索,并对每一查询候选文本检索后的所有文档分别根据分词命中得分累加计算检索分数,且根据所述检索分数对每一查询候选文本检索出文档由高到低进行排序,分别取前N个文档作为每一查询候选文本的检索结果,利用文本匹配模型对每一查询候选文本对应的N个文档进行相关性打分,共得到K*N个文档及其对应的相关性得分,其中,K和N均为大于零的自然数;
结合所述查询候选文本的通顺度得分,对K*N个文档的文本得分分别进行计算,其中,文本得分=文档的相关性得分*对应的查询候选文本的通顺度得分,并根据所述文本得分对K*N个文档进行排序;
选择文本得分最高的文档作为第一推荐文档推荐给用户。
进一步的,还包括:
判断是否存在历史用户查询信息,若存在历史用户查询信息,则根据历史用户查询信息对K*N个文档再进行一次用户行为打分,再结合每个文档的文本得分,计算K*N个文档的总得分,其中,总得分=α*用户行为打分+β*文本得分,其中,α为预设第一权重,β为预设第二权重;
根据总得分对K*N个文档进行排序,选择总得分最高的作为第一推荐文档推荐给用户。
进一步的,所述利用语言通顺度模型对所有文本进行通顺度评价打分具体包括:
先在大规模语料下统计2-gram、3-gram的概率,然后根据预先统计的2-gram、3-gram概率计算每一文本的概率,所有概率经过归一化后作为文本的通顺度得分。
进一步的,通过BM25算法检索出与查询候选文本相关的N个文档。
进一步的,所述用户行为打分的方式如下:
先通过BM25计算用户历史问题与每一查询候选文本的相关性得分,选取查询候选文本与用户问题相关性得分最高的作为用户问题得分;然后取出每个查询候选文本对应最高得分用户问题的点击文档,利用BM25计算该查询候选文本下的N个文档与该点击文档的相关性得分,作为用户文档得分,用户行为得分=用户问题得分+用户文档得分。
有益效果:1、本发明通过对语音识别的结果进行多候选、多策略匹配搜索,扩大了搜索范围,提高搜索准确率;
2、本发明通过语言通顺度模型过滤候选查询文本,减少搜索空间,提高搜索速度;
3、本发明引入用户历史信息,加强对用户问题的理解,提升用户体验。
附图说明
图1是本发明实施例的基于多策略匹配的语音搜索方法的流程示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,本实施例在以本发明技术方案为前提下进行实施,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。
如图1所示,本发明实施例提供了一种基于多策略匹配的语音搜索方法,包括:
获取用户输入的语音,该语音经过语音识别生成文本,如用户输入的语音中存在同音字,则在语音识别后生成与同音字对应的所有文本,比如“yinhang”,可能是“银行”,也可能是“引航”,在语音识别后生成与“银行”和“引航”对应的所有文本。利用语言通顺度模型对所有文本分别进行通顺度评价打分,以获得每一文本的通顺度得分,通顺度得分可以设置在0至1之间。根据通顺度得分对所有文本由高到低进行排序,筛选前K个(通顺度得分最高的K个)文本作为查询候选文本。比如“woquyinhang”识别后的文本是“我去银行”的通顺度得分就要比“我去引航”的通顺度得分高。
对K个查询候选文本分别进行检索,并对每一查询候选文本检索后的所有文档分别根据分词命中得分累加计算检索分数,且根据检索分数对每一查询候选文本检索出文档由高到低进行排序,分别取前N个文档作为每一查询候选文本的检索结果,利用文本匹配模型对每一查询候选文本对应的N个文档进行相关性打分,共得到K*N个文档及其对应的相关性得分,其中,K和N均为大于零的自然数。相关性得分也设置在0至1之间。K和N均为大于零的自然数,其取值可根据业务场景需求进行设定,如K可以取值为5或10等,N可以取值为30、50或100等。上述分词命中得分是搜索引擎作出的打分,一个分词命中,即得到一个tf-idf(term frequency–inverse document frequency)对应分数。
结合查询候选文本的通顺度得分,对K*N个文档的文本得分分别进行计算,其中,文本得分=文档的相关性得分*对应的查询候选文本的通顺度得分,并根据文本得分对K*N个文档进行排序。
选择文本得分最高的文档作为第一推荐文档推荐给用户。
还包括:判断是否存在历史用户查询信息,若存在历史用户查询信息,则根据历史用户查询信息对K*N个文档再进行一次用户行为打分,再结合每个文档的文本得分,计算K*N的总得分,其中,总得分=α*用户行为打分+β*文本得分,其中,α为预设第一权重,β为预设第二权重。
根据总得分对K*N个文档进行排序,选择总得分最高的作为第一推荐文档推荐给用户。
本发明实施例的利用语言通顺度模型对所有文本进行通顺度评价打分具体包括:
先在大规模语料下统计2-gram、3-gram的概率,然后根据预先统计的2-gram、3-gram概率计算每一文本的概率,所有概率经过归一化后作为文本的通顺度得分。
本发明实施例通过BM25算法检索出与查询候选文本相关的N个文档。然后用文本匹配模型对N个文档进行相关性打分。具体来说,文本匹配模型以bert模型为框架,输入查询候选文本与检索出的文档,该模型会输出该文档的相关性得分。
本发明实施例的用户行为打分的方式如下:
先通过BM25计算用户历史问题与每一查询候选文本的相关性得分,选取查询候选文本与用户问题相关性得分最高的作为用户问题得分;然后取出每个查询候选文本对应最高得分用户问题的点击文档,利用BM25计算该查询候选文本下的N个文档与该点击文档的相关性得分,作为用户文档得分,用户行为得分=用户问题得分+用户文档得分。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,其它未具体描述的部分,属于现有技术或公知常识。在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.一种基于多策略匹配的语音搜索方法,其特征在于,包括:
获取用户输入的语音,所述语音经过语音识别生成文本,如所述用户输入的语音中存在同音字,则在语音识别后生成与同音字对应的所有文本,利用语言通顺度模型对所有文本分别进行通顺度评价打分,以获得每一文本的通顺度得分,根据所述通顺度得分对所有文本由高到低进行排序,筛选前K个文本作为查询候选文本;
对K个查询候选文本分别进行检索,并对每一查询候选文本检索后的所有文档分别根据分词命中得分累加计算检索分数,且根据所述检索分数对每一查询候选文本检索出文档由高到低进行排序,分别取前N个文档作为每一查询候选文本的检索结果,利用文本匹配模型对每一查询候选文本对应的N个文档进行相关性打分,共得到K*N个文档及其对应的相关性得分,其中,K和N均为大于零的自然数;
结合所述查询候选文本的通顺度得分,对K*N个文档的文本得分分别进行计算,其中,文本得分=文档的相关性得分*对应的查询候选文本的通顺度得分,并根据所述文本得分对K*N个文档进行排序;
选择文本得分最高的文档作为第一推荐文档推荐给用户。
2.根据权利要求1所述的基于多策略匹配的语音搜索方法,其特征在于,还包括:
判断是否存在历史用户查询信息,若存在历史用户查询信息,则根据历史用户查询信息对K*N个文档再进行一次用户行为打分,再结合每个文档的文本得分,计算K*N个文档的总得分,其中,总得分=α*用户行为打分+β*文本得分,其中,α为预设第一权重,β为预设第二权重;
根据总得分对K*N个文档进行排序,选择总得分最高的作为第一推荐文档推荐给用户。
3.根据权利要求1所述的基于多策略匹配的语音搜索方法,其特征在于,所述利用语言通顺度模型对所有文本进行通顺度评价打分具体包括:
先在大规模语料下统计2-gram、3-gram的概率,然后根据预先统计的2-gram、3-gram概率计算每一文本的概率,所有概率经过归一化后作为文本的通顺度得分。
4.根据权利要求1所述的基于多策略匹配的语音搜索方法,其特征在于,通过BM25算法检索出与查询候选文本相关的N个文档。
5.根据权利要求2所述的基于多策略匹配的语音搜索方法,其特征在于,所述用户行为打分的方式如下:
先通过BM25计算用户历史问题与每一查询候选文本的相关性得分,选取查询候选文本与用户问题相关性得分最高的作为用户问题得分;然后取出每个查询候选文本对应最高得分用户问题的点击文档,利用BM25计算该查询候选文本下的N个文档与该点击文档的相关性得分,作为用户文档得分,用户行为得分=用户问题得分+用户文档得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111293241.6A CN113722447B (zh) | 2021-11-03 | 2021-11-03 | 一种基于多策略匹配的语音搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111293241.6A CN113722447B (zh) | 2021-11-03 | 2021-11-03 | 一种基于多策略匹配的语音搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113722447A CN113722447A (zh) | 2021-11-30 |
CN113722447B true CN113722447B (zh) | 2022-02-08 |
Family
ID=78686639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111293241.6A Active CN113722447B (zh) | 2021-11-03 | 2021-11-03 | 一种基于多策略匹配的语音搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113722447B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6418431B1 (en) * | 1998-03-30 | 2002-07-09 | Microsoft Corporation | Information retrieval and speech recognition based on language models |
CN106776763A (zh) * | 2016-11-22 | 2017-05-31 | 北京云知声信息技术有限公司 | 目的地搜索方法及装置 |
CN111259170A (zh) * | 2018-11-30 | 2020-06-09 | 北京嘀嘀无限科技发展有限公司 | 一种语音搜索方法、装置、电子设备及存储介质 |
CN111554293A (zh) * | 2020-03-17 | 2020-08-18 | 深圳市奥拓电子股份有限公司 | 语音识别中噪音的过滤方法、装置、介质及对话机器人 |
-
2021
- 2021-11-03 CN CN202111293241.6A patent/CN113722447B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6418431B1 (en) * | 1998-03-30 | 2002-07-09 | Microsoft Corporation | Information retrieval and speech recognition based on language models |
CN106776763A (zh) * | 2016-11-22 | 2017-05-31 | 北京云知声信息技术有限公司 | 目的地搜索方法及装置 |
CN111259170A (zh) * | 2018-11-30 | 2020-06-09 | 北京嘀嘀无限科技发展有限公司 | 一种语音搜索方法、装置、电子设备及存储介质 |
CN111554293A (zh) * | 2020-03-17 | 2020-08-18 | 深圳市奥拓电子股份有限公司 | 语音识别中噪音的过滤方法、装置、介质及对话机器人 |
Non-Patent Citations (1)
Title |
---|
一种改善的基于语言模型的中文检索系统研究;张俊林 等;《中文信息学报》;20040325;第18卷(第02期);第23-29页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113722447A (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110196901B (zh) | 对话系统的构建方法、装置、计算机设备和存储介质 | |
JP5462001B2 (ja) | 文脈上の入力方法 | |
US11693894B2 (en) | Conversation oriented machine-user interaction | |
CN108304372B (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
US9164983B2 (en) | Broad-coverage normalization system for social media language | |
KR102417045B1 (ko) | 명칭을 강인하게 태깅하는 방법 및 시스템 | |
CN108304375B (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
US9047870B2 (en) | Context based language model selection | |
KR101650112B1 (ko) | 음역을 위한 기계 학습 | |
US20230274729A1 (en) | Acoustic model training using corrected terms | |
CN111639489A (zh) | 中文文本纠错系统、方法、装置及计算机可读存储介质 | |
CN109637537B (zh) | 一种自动获取标注数据优化自定义唤醒模型的方法 | |
CN109508441B (zh) | 通过自然语言实现数据统计分析的方法、装置及电子设备 | |
Shokouhi et al. | Did you say U2 or YouTube? Inferring implicit transcripts from voice search logs | |
CN114064901B (zh) | 一种基于知识图谱词义消歧的书评文本分类方法 | |
CN102970618A (zh) | 基于音节识别的视频点播方法 | |
US11599569B2 (en) | Information processing device, information processing system, and computer program product for converting a causal relationship into a generalized expression | |
CN103164398A (zh) | 汉维电子辞典及其自动转译汉维语的方法 | |
CN109684357B (zh) | 信息处理方法及装置、存储介质、终端 | |
CN113722447B (zh) | 一种基于多策略匹配的语音搜索方法 | |
CN103164395A (zh) | 汉柯电子辞典及其自动转译汉柯语的方法 | |
CN103164396A (zh) | 汉维哈柯电子辞典及其自动转译汉维哈柯语的方法 | |
Rytting et al. | Spelling correction for dialectal Arabic dictionary lookup | |
CN111429886B (zh) | 一种语音识别方法及系统 | |
Hasan et al. | SweetCoat-2D: Two-Dimensional Bangla Spelling Correction and Suggestion Using Levenshtein Edit Distance and String Matching Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |