CN112231440A - 一种基于人工智能的语音搜索方法 - Google Patents
一种基于人工智能的语音搜索方法 Download PDFInfo
- Publication number
- CN112231440A CN112231440A CN202011075071.XA CN202011075071A CN112231440A CN 112231440 A CN112231440 A CN 112231440A CN 202011075071 A CN202011075071 A CN 202011075071A CN 112231440 A CN112231440 A CN 112231440A
- Authority
- CN
- China
- Prior art keywords
- search
- voice
- voice signal
- text
- artificial intelligence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
Abstract
本发明涉及语音搜索,具体涉及一种基于人工智能的语音搜索方法,判断用户输入的语音信号是否为童声,并识别语音信号得到搜索词,根据与搜索词的相似度,从历史搜索记录中匹配搜索文本,并对匹配到的搜索文本进行排序,若语音信号为童声,则对排序后的搜索文本进行筛选,否则不对排序后的搜索文本进行操作,获取语音信号的查询意图,并对搜索文本进行类别分析,根据搜索文本类别以及查询意图对搜索文本进行进一步筛选,生成筛选出搜索文本对应的文本信息,并对文本信息进行播报;本发明提供的技术方案能够有效克服现有技术所存在的无法对儿童语音搜索者进行搜索文本的屏蔽动作、对口语化的语音信号匹配搜索内容时不够准确的缺陷。
Description
技术领域
本发明涉及语音搜索,具体涉及一种基于人工智能的语音搜索方法。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI,它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的站在人类智能的角度做出反应的智能机器,该领域的研究包括机器人、语音交互、图像识别、自然语言处理和专家系统等。
现有的语音搜索引擎,由于受到语音识别准确率和发音不标准的限制,语音查询语句中常常掺杂一些被识别错误的词或字,语音搜索引擎在收到语音查询语句后,通常先基于拼音匹配的方式,对语音查询语句中的词语片段进行纠正,然后再根据纠正后的语音查询语句获取搜索结果。
然而,现有的语音搜索引擎无法对儿童语音搜索者进行搜索文本的屏蔽动作,儿童可能会浏览到充斥着不健康内容的网页,并且现有语音搜索引擎存在对口语化的语音信号匹配搜索内容时经常会出现不够准确的问题。
发明内容
(一)解决的技术问题
针对现有技术所存在的上述缺点,本发明提供了一种基于人工智能的语音搜索方法,能够有效克服现有技术所存在的无法对儿童语音搜索者进行搜索文本的屏蔽动作、对口语化的语音信号匹配搜索内容时不够准确的缺陷。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种基于人工智能的语音搜索方法,包括以下步骤:
S1、判断用户输入的语音信号是否为童声,并识别语音信号得到搜索词;
S2、根据与搜索词的相似度,从历史搜索记录中匹配搜索文本,并对匹配到的搜索文本进行排序;
S3、若语音信号为童声,则对排序后的搜索文本进行筛选,否则不对排序后的搜索文本进行操作;
S4、获取语音信号的查询意图,并对搜索文本进行类别分析,根据搜索文本类别以及查询意图对搜索文本进行进一步筛选;
S5、生成筛选出搜索文本对应的文本信息,并对文本信息进行播报。
优选地,所述判断用户输入的语音信号是否为童声之前,建立语音信号识别模型,并对语音信号识别模型进行训练,包括:
获取语音样本训练集,去除语音样本训练集中的静音数据,提取语音样本训练集中的发声特征、音色特征,将语音样本训练集及其对应的发声特征、音色特征以及发声者身份输入语音信号识别模型进行训练。
优选地,所述去除语音样本训练集中的静音数据,提取语音样本训练集中的发声特征、音色特征,包括:
按照第一步长对语音样本训练集中的音频数据进行分帧,并去除每帧音频数据中的静音数据;
按照第二步长对去除静音数据后的音频数据进行分帧,并提取每帧音频数据中的发声特征、音色特征。
优选地,所述判断用户输入的语音信号是否为童声,包括:
将用户输入的语音信号输入训练好的语音信号识别模型中,语音信号识别模型按照第三步长对每帧音频数据对应的发声特征、音色特征进行打分,并计算每帧音频数据的平均分;
若每帧音频数据的平均分高于阈值,则判断用户输入的语音信号为童声,否则判断用户输入的语音信号不是童声。
优选地,所述若语音信号为童声,则对排序后的搜索文本进行筛选,包括:
对排序后的搜索文本进行文字识别,删去不适合儿童阅读的敏感搜索文本。
优选地,所述根据与搜索词的相似度,从历史搜索记录中匹配搜索文本,包括:
计算每个搜索文本与搜索词之间的相似度,并对相似度大于阈值的搜索文本与搜索词进行匹配。
优选地,所述计算每个搜索文本与搜索词之间的相似度,包括:
提取每个搜索文本的评价特征,将评价特征与搜索词进行比对打分,对评价特征对应的分数进行加权求和得到相似度;
其中,评价特征包括语义向量相似特征、字面相似特征、发音相似特征和搜索结果匹配特征中的一个或多个。
优选地,所述计算每个搜索文本与搜索词之间的相似度之后,包括:
根据搜索文本的搜索频率和匹配满意度,对搜索文本与搜索词之间的相似度进行修正。
优选地,所述获取语音信号的查询意图,包括:
将语音信号对应的音频语句分割成多个单词或短语,并对单词或短语的字面特征、语义特征进行识别,根据识别结果分析语音信号的查询意图。
优选地,所述对搜索文本进行类别分析,包括:
获取搜索文本对应的页面内容信息,对页面内容信息进行解析,并提取对应的数据特征,根据数据特征分析搜索文本所属类别。
(三)有益效果
与现有技术相比,本发明所提供的一种基于人工智能的语音搜索方法,能够有效识别用户输入的语音信号是否为童声,并对儿童语音搜索者进行搜索文本的屏蔽动作,避免儿童浏览到充斥着不健康内容的网页;识别语音信号得到搜索词,通过从历史搜索记录中匹配与搜索词相似的搜索文本,能够提高对口语化的语音信号匹配搜索内容时的准确度;根据搜索文本类别以及查询意图对搜索文本进行进一步筛选,使得筛选出来的搜索文本更加贴合用户的查询意图,有效提高用户的语音搜索效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明语音搜索的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于人工智能的语音搜索方法,如图1所示,判断用户输入的语音信号是否为童声,并识别语音信号得到搜索词。
判断用户输入的语音信号是否为童声之前,建立语音信号识别模型,并对语音信号识别模型进行训练,包括:
获取语音样本训练集,去除语音样本训练集中的静音数据,提取语音样本训练集中的发声特征、音色特征,将语音样本训练集及其对应的发声特征、音色特征以及发声者身份输入语音信号识别模型进行训练。
去除语音样本训练集中的静音数据,提取语音样本训练集中的发声特征、音色特征,包括:
按照第一步长对语音样本训练集中的音频数据进行分帧,并去除每帧音频数据中的静音数据;
按照第二步长对去除静音数据后的音频数据进行分帧,并提取每帧音频数据中的发声特征、音色特征。
判断用户输入的语音信号是否为童声,包括:
将用户输入的语音信号输入训练好的语音信号识别模型中,语音信号识别模型按照第三步长对每帧音频数据对应的发声特征、音色特征进行打分,并计算每帧音频数据的平均分;
若每帧音频数据的平均分高于阈值,则判断用户输入的语音信号为童声,否则判断用户输入的语音信号不是童声。
根据与搜索词的相似度,从历史搜索记录中匹配搜索文本,并对匹配到的搜索文本进行排序。
根据与搜索词的相似度,从历史搜索记录中匹配搜索文本,包括:
计算每个搜索文本与搜索词之间的相似度,并对相似度大于阈值的搜索文本与搜索词进行匹配。
计算每个搜索文本与搜索词之间的相似度,包括:
提取每个搜索文本的评价特征,将评价特征与搜索词进行比对打分,对评价特征对应的分数进行加权求和得到相似度;
其中,评价特征包括语义向量相似特征、字面相似特征、发音相似特征和搜索结果匹配特征中的一个或多个。
计算每个搜索文本与搜索词之间的相似度之后,包括:
根据搜索文本的搜索频率和匹配满意度,对搜索文本与搜索词之间的相似度进行修正。
若语音信号为童声,则对排序后的搜索文本进行筛选,否则不对排序后的搜索文本进行操作。
若语音信号为童声,则对排序后的搜索文本进行筛选,包括:
对排序后的搜索文本进行文字识别,删去不适合儿童阅读的敏感搜索文本。
获取语音信号的查询意图,并对搜索文本进行类别分析,根据搜索文本类别以及查询意图对搜索文本进行进一步筛选;生成筛选出搜索文本对应的文本信息,并对文本信息进行播报。
获取语音信号的查询意图,包括:
将语音信号对应的音频语句分割成多个单词或短语,并对单词或短语的字面特征、语义特征进行识别,根据识别结果分析语音信号的查询意图。
对搜索文本进行类别分析,包括:
获取搜索文本对应的页面内容信息,对页面内容信息进行解析,并提取对应的数据特征,根据数据特征分析搜索文本所属类别。
本申请技术方案中,可以通过TTS语音合成技术将筛选出搜索文本对应的文本信息转换为语音信息,并通过音频输出设备进行播报。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于人工智能的语音搜索方法,其特征在于:包括以下步骤:
S1、判断用户输入的语音信号是否为童声,并识别语音信号得到搜索词;
S2、根据与搜索词的相似度,从历史搜索记录中匹配搜索文本,并对匹配到的搜索文本进行排序;
S3、若语音信号为童声,则对排序后的搜索文本进行筛选,否则不对排序后的搜索文本进行操作;
S4、获取语音信号的查询意图,并对搜索文本进行类别分析,根据搜索文本类别以及查询意图对搜索文本进行进一步筛选;
S5、生成筛选出搜索文本对应的文本信息,并对文本信息进行播报。
2.根据权利要求1所述的基于人工智能的语音搜索方法,其特征在于:所述判断用户输入的语音信号是否为童声之前,建立语音信号识别模型,并对语音信号识别模型进行训练,包括:
获取语音样本训练集,去除语音样本训练集中的静音数据,提取语音样本训练集中的发声特征、音色特征,将语音样本训练集及其对应的发声特征、音色特征以及发声者身份输入语音信号识别模型进行训练。
3.根据权利要求2所述的基于人工智能的语音搜索方法,其特征在于:所述去除语音样本训练集中的静音数据,提取语音样本训练集中的发声特征、音色特征,包括:
按照第一步长对语音样本训练集中的音频数据进行分帧,并去除每帧音频数据中的静音数据;
按照第二步长对去除静音数据后的音频数据进行分帧,并提取每帧音频数据中的发声特征、音色特征。
4.根据权利要求2所述的基于人工智能的语音搜索方法,其特征在于:所述判断用户输入的语音信号是否为童声,包括:
将用户输入的语音信号输入训练好的语音信号识别模型中,语音信号识别模型按照第三步长对每帧音频数据对应的发声特征、音色特征进行打分,并计算每帧音频数据的平均分;
若每帧音频数据的平均分高于阈值,则判断用户输入的语音信号为童声,否则判断用户输入的语音信号不是童声。
5.根据权利要求4所述的基于人工智能的语音搜索方法,其特征在于:所述若语音信号为童声,则对排序后的搜索文本进行筛选,包括:
对排序后的搜索文本进行文字识别,删去不适合儿童阅读的敏感搜索文本。
6.根据权利要求1所述的基于人工智能的语音搜索方法,其特征在于:所述根据与搜索词的相似度,从历史搜索记录中匹配搜索文本,包括:
计算每个搜索文本与搜索词之间的相似度,并对相似度大于阈值的搜索文本与搜索词进行匹配。
7.根据权利要求6所述的基于人工智能的语音搜索方法,其特征在于:所述计算每个搜索文本与搜索词之间的相似度,包括:
提取每个搜索文本的评价特征,将评价特征与搜索词进行比对打分,对评价特征对应的分数进行加权求和得到相似度;
其中,评价特征包括语义向量相似特征、字面相似特征、发音相似特征和搜索结果匹配特征中的一个或多个。
8.根据权利要求7所述的基于人工智能的语音搜索方法,其特征在于:所述计算每个搜索文本与搜索词之间的相似度之后,包括:
根据搜索文本的搜索频率和匹配满意度,对搜索文本与搜索词之间的相似度进行修正。
9.根据权利要求1所述的基于人工智能的语音搜索方法,其特征在于:所述获取语音信号的查询意图,包括:
将语音信号对应的音频语句分割成多个单词或短语,并对单词或短语的字面特征、语义特征进行识别,根据识别结果分析语音信号的查询意图。
10.根据权利要求9所述的基于人工智能的语音搜索方法,其特征在于:所述对搜索文本进行类别分析,包括:
获取搜索文本对应的页面内容信息,对页面内容信息进行解析,并提取对应的数据特征,根据数据特征分析搜索文本所属类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011075071.XA CN112231440A (zh) | 2020-10-09 | 2020-10-09 | 一种基于人工智能的语音搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011075071.XA CN112231440A (zh) | 2020-10-09 | 2020-10-09 | 一种基于人工智能的语音搜索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112231440A true CN112231440A (zh) | 2021-01-15 |
Family
ID=74120715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011075071.XA Pending CN112231440A (zh) | 2020-10-09 | 2020-10-09 | 一种基于人工智能的语音搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112231440A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326279A (zh) * | 2021-05-27 | 2021-08-31 | 阿波罗智联(北京)科技有限公司 | 语音搜索方法和装置、电子设备、计算机可读介质 |
CN113434775A (zh) * | 2021-07-15 | 2021-09-24 | 北京达佳互联信息技术有限公司 | 搜索内容的确定方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653738A (zh) * | 2016-03-01 | 2016-06-08 | 北京百度网讯科技有限公司 | 基于人工智能的搜索结果播报方法和装置 |
CN106571139A (zh) * | 2016-11-09 | 2017-04-19 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音搜索结果处理方法及装置 |
CN106599110A (zh) * | 2016-11-29 | 2017-04-26 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音搜索方法及装置 |
CN107357875A (zh) * | 2017-07-04 | 2017-11-17 | 北京奇艺世纪科技有限公司 | 一种语音搜索方法、装置及电子设备 |
-
2020
- 2020-10-09 CN CN202011075071.XA patent/CN112231440A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653738A (zh) * | 2016-03-01 | 2016-06-08 | 北京百度网讯科技有限公司 | 基于人工智能的搜索结果播报方法和装置 |
CN106571139A (zh) * | 2016-11-09 | 2017-04-19 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音搜索结果处理方法及装置 |
CN106599110A (zh) * | 2016-11-29 | 2017-04-26 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音搜索方法及装置 |
CN107357875A (zh) * | 2017-07-04 | 2017-11-17 | 北京奇艺世纪科技有限公司 | 一种语音搜索方法、装置及电子设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326279A (zh) * | 2021-05-27 | 2021-08-31 | 阿波罗智联(北京)科技有限公司 | 语音搜索方法和装置、电子设备、计算机可读介质 |
CN113434775A (zh) * | 2021-07-15 | 2021-09-24 | 北京达佳互联信息技术有限公司 | 搜索内容的确定方法及装置 |
CN113434775B (zh) * | 2021-07-15 | 2024-03-26 | 北京达佳互联信息技术有限公司 | 搜索内容的确定方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255113B (zh) | 智能校对系统 | |
US10515292B2 (en) | Joint acoustic and visual processing | |
CN109410914B (zh) | 一种赣方言语音和方言点识别方法 | |
CN108536654B (zh) | 识别文本展示方法及装置 | |
CN111128223B (zh) | 一种基于文本信息的辅助说话人分离方法及相关装置 | |
WO2018108080A1 (zh) | 一种基于声纹搜索的信息推荐方法及装置 | |
CN107305541A (zh) | 语音识别文本分段方法及装置 | |
CN109637537B (zh) | 一种自动获取标注数据优化自定义唤醒模型的方法 | |
CN111105785B (zh) | 一种文本韵律边界识别的方法及装置 | |
KR100904049B1 (ko) | 음성 인식에 대한 통계적 의미 분류 시스템 및 방법 | |
CN112735383A (zh) | 语音信号的处理方法、装置、设备及存储介质 | |
CN113094578A (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
CN112231440A (zh) | 一种基于人工智能的语音搜索方法 | |
CN110674378A (zh) | 基于余弦相似度和最小编辑距离的中文语义识别方法 | |
CN114927126A (zh) | 基于语义分析的方案输出方法、装置、设备以及存储介质 | |
CN113611286B (zh) | 一种基于共性特征提取的跨语种语音情感识别方法和系统 | |
CN114996506A (zh) | 语料生成方法、装置、电子设备和计算机可读存储介质 | |
Birla | A robust unsupervised pattern discovery and clustering of speech signals | |
CN116052655A (zh) | 音频处理方法、装置、电子设备和可读存储介质 | |
CN114880496A (zh) | 多媒体信息话题分析方法、装置、设备及存储介质 | |
CN112397059B (zh) | 一种语音流畅度检测方法及装置 | |
CN114863914A (zh) | 构建端到端语音评测模型的深度学习方法 | |
CN114168885A (zh) | 一种基于语音识别和nl2sql模型的智能类案检索的方法 | |
CN110858268B (zh) | 一种检测语音翻译系统中不流畅现象的方法及系统 | |
CN113158052B (zh) | 聊天内容推荐方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |