CN110085217A - 语音导航方法、装置及终端设备 - Google Patents
语音导航方法、装置及终端设备 Download PDFInfo
- Publication number
- CN110085217A CN110085217A CN201910197616.5A CN201910197616A CN110085217A CN 110085217 A CN110085217 A CN 110085217A CN 201910197616 A CN201910197616 A CN 201910197616A CN 110085217 A CN110085217 A CN 110085217A
- Authority
- CN
- China
- Prior art keywords
- user
- signal
- voice
- environmental form
- intent information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000007613 environmental effect Effects 0.000 claims abstract description 59
- 230000006870 function Effects 0.000 claims description 37
- 238000004590 computer program Methods 0.000 claims description 18
- 239000013589 supplement Substances 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Navigation (AREA)
Abstract
本发明适用于语音识别技术领域,提供了一种语音导航方法、装置及终端设备,所述方法包括:采集用户输入的语音信号,并识别所述语音信号中的噪声信号;根据所述噪声信号,确定用户当前所处的环境类型;根据用户当前所处的环境类型,选择对应的声学模型作为第一声学模型,并将所述语音信号输入所述第一声学模型中,得到语音识别结果;根据所述语音识别结果在数据库中查找对应的功能模块,并显示所述功能模块。本发明通过噪声信号确定当前的环境类型,从而能够根据环境类型选择专门针对该环境类型的声学模型,能够提高语音识别结果的准确性,进而提高导航结果的准确性。
Description
技术领域
本发明属于语音识别技术领域,尤其涉及一种语音导航方法、装置及终端设备。
背景技术
随着信息化水平越来越高,系统越来越完善,功能也越来越多,通常在一个大型系统中,会有几十个系统组成,功能模块化拆分到不同的系统中去,这很符合系统建设规范,但是一个用户需要记住某个功能在某个系统的某个地方,当用户涉及的功能越多,需要记忆的就越多,给信息化能力不强的用户或者新用户带来了不小的挑战。
目前,为了提高服务质量,提升效率,通常通过智能语音导航直接为用户定位到指定系统的功能模块中,简化用户记忆某个功能在某个系统中的某个位置,但是由于语音导航对获取的语音质量要求很高,而现实中获取到的语音质量参差不齐,当获取到低质量的语音时导航结果往往会出现差错,影响用户体验。
发明内容
有鉴于此,本发明实施例提供了一种语音导航方法、装置及终端设备,以解决现有技术中因获取的语音质量较差而导致导航结果不准确的问题。
本发明实施例的第一方面提供了一种语音导航方法,包括:
采集用户输入的语音信号,并识别所述语音信号中的噪声信号;
根据所述噪声信号,确定用户当前所处的环境类型;
根据用户当前所处的环境类型,选择对应的声学模型作为第一声学模型,并将所述语音信号输入所述第一声学模型中,得到语音识别结果;
根据所述语音识别结果在数据库中查找对应的功能模块,并显示所述功能模块。
本发明实施例的第二方面提供了一种语音导航装置,包括:
信号获取模块,用于通过麦克风阵列采集用户输入的语音信号,并识别所述语音信号中的噪声信号;
环境类型确定模块,用于根据所述噪声信号,确定用户当前所处的环境类型;
语音识别结果获取模块,用于根据用户当前所处的环境类型,选择对应的声学模型作为第一声学模型,并将所述语音信号输入所述第一声学模型中,得到语音识别结果;
功能查找模块,用于根据所述语音识别结果在数据库中查找对应的功能模块,并显示所述功能模块。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述语音导航方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述语音导航方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例采集用户输入的语音信号,并识别所述语音信号中的噪声信号;根据所述噪声信号,确定用户当前所处的环境类型;根据用户当前所处的环境类型,选择对应的声学模型作为第一声学模型,并将所述语音信号输入所述第一声学模型中,得到语音识别结果;根据所述语音识别结果在数据库中查找对应的功能模块,并显示所述功能模块。本发明实施例通过噪声信号确定当前的环境类型,从而能够根据环境类型选择专门针对该环境类型的声学模型,能够提高语音识别结果的准确性,进而提高导航结果的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的语音导航方法的流程示意图;
图2是本发明实施例提供的图1中S102的实现流程示意图;
图3是本发明实施例提供的图1中S104的实现流程示意图;
图4是本发明实施例提供的图3中S304的实现流程示意图;
图5是本发明实施例提供的语音导航装置的结构示意图;
图6是本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
本发明的说明书和权利要求书及上述附图中的术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含一系列步骤或单元的过程、方法或系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例1:
图1示出了本发明一实施例所提供的语音导航方法的实现流程图,本方法的流程主体可以为终端设备,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
S101:采集用户输入的语音信号,并识别所述语音信号中的噪声信号。
在本实施例中,通过麦克风阵列获取用户的语音信号,在对用户当前所处的环境噪声进行提取时,可以直接从语音信号中提取其噪声信号;也可以在获取到用户发出的有用语音信号后,继续获取预设时间段的纯环境噪声信号,并将该预设时间段内的纯环境噪声信号作为当前用户所处环境的噪声信号。
S102:根据所述噪声信号,确定用户当前所处的环境类型。
在本实施例中,对用户当前所处的环境类型的确定可以分为两种,一种是根据噪声信号的分贝确定当前用户所处的环境类型;另一种可以为提取噪声信号中特定的环境特征,确定当前所处的环境类型,特定的环境特征例如公园环境的风声、雨声、鸟叫声,道路环境的车辆鸣笛声等,通过上述环境可以确定用户当前所处的具体环境类型。
进一步地,在确定具体环境类型时,还可以获取用户当前的地理位置作为辅助元素,通过噪声信号和用户当前的地理位置确定用户当前所处的具体环境类型。
S103:根据用户当前所处的环境类型,选择对应的声学模型作为第一声学模型,并将所述语音信号输入所述第一声学模型中,得到语音识别结果。
在本实施例中,声学模型为基于深度学习算法的学习模型,可以首先建立声学模型,然后获取大量不同环境类型的训练样本,训练样本包括语音特征和语音识别结果,针对某一环境类型,采用该环境类型的训练样本训练声学模型,得到该环境类型对应的声学模型。
本实施例针对不同的环境类型设置不同的声学模型,能够更加准确的对语音特征进行识别,从而提高语音识别结果的准确性。
在本发明的一个实施例中,声学模型在获取训练样本时,还可以获取各种方言训练样本,从而使声学模型能够识别方言。
S104:根据所述语音识别结果在数据库中查找对应的功能模块,并显示所述功能模块。
在本实施例中,语音识别结果包括关键词,关键词可以包括功能名称、功能作用或者功能描述,数据库中预存有功能模块、关键词及关键词与功能模块的对应关系,终端设备根据语音识别结果与数据库中的关键词,查找对应的功能模块,从而通过语音识别直接为用户定位到系统的某个功能位置。
从上述实施例可知,本发明实施例采集用户输入的语音信号,并识别所述语音信号中的噪声信号;根据所述噪声信号,确定用户当前所处的环境类型;根据用户当前所处的环境类型,选择对应的声学模型作为第一声学模型,并将所述语音信号输入所述第一声学模型中,得到语音识别结果;根据所述语音识别结果在数据库中查找对应的功能模块,并显示所述功能模块。本发明实施例通过噪声信号确定当前的环境类型,从而能够根据环境类型选择专门针对该环境类型的声学模型,能够提高语音识别结果的准确性,进而提高导航结果的准确性。
在本发明的一个实施例中,上述语音导航方法还可以包括:将所述语音信号输入音频放大电路,并根据所述语音信号的信号强度,调节所述音频放大电路的增益系数。
在本实施例中,在终端设备获取到语音信号之后,将语音信号输入至音频放大电路中,从而实现信号放大的功能,在此环节中,设置语音信号的信号强度与音频放大电路的增益系数之间的对应关系,当语音信号的信号强度较小时,增大增益系数,从而使声学模型获取到信号强度适中的语音信号,提高语音识别结果的准确性。
如图2所示,在本发明的一个实施例中,所述环境类型包括强噪声环境和安静环境,图2示出了图1中S102的具体实现流程,其过程详述如下:
S201:确定所述噪声信号的信号强度,若所述噪声信号的信号强度大于预设强度阈值,则确定用户当前所处的环境类型为强噪声环境。
S202:若所述噪声信号的信号强度小于或等于所述预设强度阈值,则确定用户当前所处的环境类型为安静环境。
在本实施例中,可以根据噪声信号的信号强度的强弱,进行环境类型的分类,可以设置一个预设强度阈值,将环境类型分为强噪声环境和安静环境,也可以设置多个预设强度阈值,将环境类型分为多个类型。预设强度阈值分为多个,使某一个环境类型对应的声学模型所要识别的语音信号中的噪声信号更为接近,且使需要识别的语音信号与该声学模型的训练样本更为接近,从而使声学模型更有针对性的识别语音特征,得到更加准确的语音识别结果。
如图3所示,在本发明的一个实施例中,图3示出了图1中S104的具体实现流程,其过程详述如下:
S301:将所述语音识别结果转换为文本信息,并对所述文本信息进行分词处理,得到词序列。
在本实施例中,将语音识别结果转换为字符流的文本信息,再对文本信息进行分词,假设用户输入“我要用**地图”,则分词处理后的词序列可以为“我要、用、**地图”。
S302:根据所述词序列,在所述数据库中挖掘所述词序列中每个词的相似关键词,并获取所述词序列中各个词与对应的相似关键词的相似度。
在本实施例中,数据库中存在大量与各个功能模块对应的关键词,比对词序列中的每个词与数据库中的关键词,查找在数据库中是否存在与词序列中词相同的词或相似的词,例如,词序列中的**地图可以查找数据库中与地图相关的关键词,当数据库中存在与**地图相同的关键词时,则相似度为100%,若关键词亦为地图,但是**的种类不同,则相似度按照预设的相似度评分标准确定。
S303:根据词序列中各个词对应的相似关键词,组合为多条用户意图信息,并根据各个相似关键词的相似度,计算各条用户意图信息的概率。
在本实施例中,查找与词序列中各个词相关的所有的相似关键词,并分析各个相似关键词的结构化特征,从而根据各个关键词及结构化特征,组合多条用户意图信息,例如,“用”的相似关键词为“使用、打开、开启”,“**地图”的相似关键词可以为“**地图、**导航、导航、地图”,则用户意图信息可以为“打开**地图”、“开启导航”、“使用地图”等不同词序列中词的相似关键词的组合,且可以根据各个相似关键词的相似度及关键词的权重,计算各条用户意图信息的概率,例如,词序列中“**地图”为重要词,则该词可以设置较高权重,词序列中“我要、用”等词为非必要词,则非必要词可以设置较低的权重,从而使得到的概率更加符合人的意图。
S304:根据各条用户意图信息的概率,选取最优用户意图信息,并根据所述最优用户意图信息,在所述数据库中查找对应的功能模块。
在本实施例中,可以选取概率最高的用户意图信息为最优意图信息,并根据最优意图信息,打开对应的功能模块。
如图4所示,在本发明的一个实施例中,图4示出了图3中S304的具体实现流程,其过程详述如下:
S401:将概率最高的用户意图信息作为第一用户意图信息,并判断第一用户意图信息的概率是否超过预设概率下限值。
S402:若所述第一用户意图信息的概率超过所述预设概率下限值,则将所述第一用户意图信息作为最优用户意图信息。
在本实施例中,尽管选取概率最高的用户意图信息最接近用户的意图,但是,当用户输入的词与数据库中存储的关键词有较大出入时,第一用户意图信息也可能与用户的真实意图存在较大出入,因此,设置预设概率下限值,若第一用户意图的概率超过预设概率下限值,则认为该第一用户意图能够满足用户意图,因此将该第一用户意图信息作为最优用户意图信息。
S403:若所述第一用户意图信息的概率小于所述预设概率下限值,则生成补充提示信息,所述补充提示信息用于提示用户输入补充语音;并根据用户的补充语音及第一用户意图信息生成最优用户意图信息。
在本实施例中,当第一用户意图信息的概率小于所述预设概率下限值时,则生成补充提示信息,提示用户输入更为具体的语音信息,该补充语音在经过语音识别、文本转换和文本分词后,得到补充词,在获取补充词的相似关键词,最后综合第一用户意图信息中的相似关键词及补充的相似关键词,得到至少一个补充用户意图信息,并选取概率最高的补充用户意图信息作为最优用户意图信息。
在本实施例中,当用户补充信息后,得到的最优用户意图信息的概率仍小于预设概率下限值时,则在终端设备上显示所有的补充用户意图信息,供用户选择,当用户在补充用户意图中未查找到满意的功能时,则获取用户输入的功能名称,并将第一次获取的语音识别结果的词序列保存至数据库该功能名称的名下,从而在下次用户再输入该语音信号后,能够准确的获取到用户要打开的功能模块,从而满足用户特定的语言习惯。
从上述实施例可知,用户通过语音的方式,说出指定功能的名称、功能作用或者功能描述等信息,就可以直接为用户定位到系统的指定功能模块中,可以简化老用户记忆某个功能在系统中的位置,同时让新用户通过自己的意图快速定位功能入口。使得用户轻松的使用系统,直接根据业务经验去定位功能模块,提高用户的使用体验。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例2:
如图5所示,本发明的一个实施例提供的语音导航装置100,用于执行图1所对应的实施例中的方法步骤,其包括:
信号获取模块110,用于通过麦克风阵列采集用户输入的语音信号,并识别所述语音信号中的噪声信号;
环境类型确定模块120,用于根据所述噪声信号,确定用户当前所处的环境类型;
语音识别结果获取模块130,用于根据用户当前所处的环境类型,选择对应的声学模型作为第一声学模型,并将所述语音信号输入所述第一声学模型中,得到语音识别结果;
功能查找模块140,用于根据所述语音识别结果在数据库中查找对应的功能模块,并显示所述功能模块。
从上述实施例可知,本发明实施例采集用户输入的语音信号,并识别所述语音信号中的噪声信号;根据所述噪声信号,确定用户当前所处的环境类型;根据用户当前所处的环境类型,选择对应的声学模型作为第一声学模型,并将所述语音信号输入所述第一声学模型中,得到语音识别结果;根据所述语音识别结果在数据库中查找对应的功能模块,并显示所述功能模块。本发明实施例通过噪声信号确定当前的环境类型,从而能够根据环境类型选择专门针对该环境类型的声学模型,能够提高语音识别结果的准确性,进而提高导航结果的准确性。
在本发明的一个实施例中,本实施例提供的语音导航装置100还包括:
增益系数调整模块,用于将所述语音信号输入音频放大电路,并根据所述语音信号的信号强度,调节所述音频放大电路的增益系数。
在本实施例中,所述环境类型包括强噪声环境和安静环境,所述环境类型确定模块120包括:
噪声环境确定单元,用于确定所述噪声信号的信号强度,若所述噪声信号的信号强度大于预设强度阈值,则确定用户当前所处的环境类型为强噪声环境;
安静环境确定单元,用于若所述噪声信号的信号强度小于或等于所述预设强度阈值,则确定用户当前所处的环境类型为安静环境。
在本发明的一个实施例中,图5所对应的实施例中的功能查找模块140还包括用于执行图3所对应的实施例中的方法步骤的结构,其包括:
词序列获取单元,用于将所述语音识别结果转换为文本信息,并对所述文本信息进行分词处理,得到词序列;
相似关键词获取单元,用于根据所述词序列,在所述数据库中挖掘所述词序列中每个词的相似关键词,并获取所述词序列中各个词与对应的相似关键词的相似度;
用户意图信息获取单元,用于根据词序列中各个词对应的相似关键词,组合为多条用户意图信息,并根据各个相似关键词的相似度,计算各条用户意图信息的概率;
功能查找单元,用于根据各条用户意图信息的概率,选取最优用户意图信息,并根据所述最优用户意图信息,在所述数据库中查找对应的功能模块。
在本发明的一个实施例中,功能查找单元还包括:
概率判断子单元,用于将概率最高的用户意图信息作为第一用户意图信息,并判断第一用户意图信息的概率是否超过预设概率下限值;
第一最优用户意图获取子单元,用于若所述第一用户意图信息的概率超过所述预设概率下限值,则将所述第一用户意图信息作为最优用户意图信息;
第二最优用户意图获取子单元,用于若所述第一用户意图信息的概率小于所述预设概率下限值,则生成补充提示信息,所述补充提示信息用于提示用户输入补充语音;并根据用户的补充语音及第一用户意图信息生成最优用户意图信息。
在一个实施例中,语音导航装置100还包括其他功能模块/单元,用于实现实施例1中各实施例中的方法步骤。
实施例3:
图6是本发明一实施例提供的终端设备的示意图。如图6所示,该实施例的终端设备6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62。所述处理器60执行所述计算机程序62时实现上述各个语音导航方法实施例中的步骤,例如图1所示的步骤101至104。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图5所示模块110至140的功能。
所述计算机程序62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序62在所述终端设备6中的执行过程。
所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是终端设备6的示例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音导航方法,其特征在于,包括:
采集用户输入的语音信号,并识别所述语音信号中的噪声信号;
根据所述噪声信号,确定用户当前所处的环境类型;
根据用户当前所处的环境类型,选择对应的声学模型作为第一声学模型,并将所述语音信号输入所述第一声学模型中,得到语音识别结果;
根据所述语音识别结果在数据库中查找对应的功能模块,并显示所述功能模块。
2.如权利要求1所述的语音导航方法,其特征在于,在所述采集用户输入的语音信号,并识别所述语音信号中的噪声信号之后,还包括:
将所述语音信号输入音频放大电路,并根据所述语音信号的信号强度,调节所述音频放大电路的增益系数。
3.如权利要求1所述的语音导航方法,其特征在于,所述环境类型包括强噪声环境和安静环境,所述根据所述噪声信号,确定用户当前所处的环境类型,包括:
确定所述噪声信号的信号强度,若所述噪声信号的信号强度大于预设强度阈值,则确定用户当前所处的环境类型为强噪声环境;
若所述噪声信号的信号强度小于或等于所述预设强度阈值,则确定用户当前所处的环境类型为安静环境。
4.如权利要求1至3任一项所述的语音导航方法,其特征在于,所述根据所述语音识别结果在数据库中查找对应的功能模块,包括:
将所述语音识别结果转换为文本信息,并对所述文本信息进行分词处理,得到词序列;
根据所述词序列,在所述数据库中挖掘所述词序列中每个词的相似关键词,并获取所述词序列中各个词与对应的相似关键词的相似度;
根据词序列中各个词对应的相似关键词,组合为多条用户意图信息,并根据各个相似关键词的相似度,计算各条用户意图信息的概率;
根据各条用户意图信息的概率,选取最优用户意图信息,并根据所述最优用户意图信息,在所述数据库中查找对应的功能模块。
5.如权利要求4所述的语音导航方法,其特征在于,所述根据各条用户意图信息的概率,选取最优用户意图信息,包括:
将概率最高的用户意图信息作为第一用户意图信息,并判断第一用户意图信息的概率是否超过预设概率下限值;
若所述第一用户意图信息的概率超过所述预设概率下限值,则将所述第一用户意图信息作为最优用户意图信息;
若所述第一用户意图信息的概率小于所述预设概率下限值,则生成补充提示信息,所述补充提示信息用于提示用户输入补充语音;并根据用户的补充语音及第一用户意图信息生成最优用户意图信息。
6.一种语音导航装置,其特征在于,包括:
信号获取模块,用于通过麦克风阵列采集用户输入的语音信号,并识别所述语音信号中的噪声信号;
环境类型确定模块,用于根据所述噪声信号,确定用户当前所处的环境类型;
语音识别结果获取模块,用于根据用户当前所处的环境类型,选择对应的声学模型作为第一声学模型,并将所述语音信号输入所述第一声学模型中,得到语音识别结果;
功能查找模块,用于根据所述语音识别结果在数据库中查找对应的功能模块,并显示所述功能模块。
7.如权利要求6所述的语音导航装置,其特征在于,还包括:
增益系数调整模块,用于将所述语音信号输入音频放大电路,并根据所述语音信号的信号强度,调节所述音频放大电路的增益系数。
8.如权利要求6所述的语音导航装置,其特征在于,所述环境类型包括强噪声环境和安静环境,所述环境类型确定模块包括:
噪声环境确定单元,用于确定所述噪声信号的信号强度,若所述噪声信号的信号强度大于预设强度阈值,则确定用户当前所处的环境类型为强噪声环境;
安静环境确定单元,用于若所述噪声信号的信号强度小于或等于所述预设强度阈值,则确定用户当前所处的环境类型为安静环境。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910197616.5A CN110085217A (zh) | 2019-03-15 | 2019-03-15 | 语音导航方法、装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910197616.5A CN110085217A (zh) | 2019-03-15 | 2019-03-15 | 语音导航方法、装置及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110085217A true CN110085217A (zh) | 2019-08-02 |
Family
ID=67413197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910197616.5A Pending CN110085217A (zh) | 2019-03-15 | 2019-03-15 | 语音导航方法、装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110085217A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179969A (zh) * | 2019-12-26 | 2020-05-19 | 数海信息技术有限公司 | 一种基于音频信息的报警方法、装置、系统及存储介质 |
CN111583946A (zh) * | 2020-04-30 | 2020-08-25 | 厦门快商通科技股份有限公司 | 一种语音信号增强方法和装置以及设备 |
CN112634908A (zh) * | 2021-03-09 | 2021-04-09 | 北京世纪好未来教育科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN113643693A (zh) * | 2020-04-27 | 2021-11-12 | 声音猎手公司 | 以声音特征为条件的声学模型 |
CN113870842A (zh) * | 2021-12-02 | 2021-12-31 | 深圳市北科瑞声科技股份有限公司 | 基于权重调节的语音控制方法、装置、设备及介质 |
-
2019
- 2019-03-15 CN CN201910197616.5A patent/CN110085217A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179969A (zh) * | 2019-12-26 | 2020-05-19 | 数海信息技术有限公司 | 一种基于音频信息的报警方法、装置、系统及存储介质 |
CN113643693A (zh) * | 2020-04-27 | 2021-11-12 | 声音猎手公司 | 以声音特征为条件的声学模型 |
US11741943B2 (en) | 2020-04-27 | 2023-08-29 | SoundHound, Inc | Method and system for acoustic model conditioning on non-phoneme information features |
CN113643693B (zh) * | 2020-04-27 | 2024-02-09 | 声音猎手公司 | 以声音特征为条件的声学模型 |
CN111583946A (zh) * | 2020-04-30 | 2020-08-25 | 厦门快商通科技股份有限公司 | 一种语音信号增强方法和装置以及设备 |
CN112634908A (zh) * | 2021-03-09 | 2021-04-09 | 北京世纪好未来教育科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN112634908B (zh) * | 2021-03-09 | 2021-06-01 | 北京世纪好未来教育科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN113870842A (zh) * | 2021-12-02 | 2021-12-31 | 深圳市北科瑞声科技股份有限公司 | 基于权重调节的语音控制方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110085217A (zh) | 语音导航方法、装置及终端设备 | |
CN107818781B (zh) | 智能交互方法、设备及存储介质 | |
US10037758B2 (en) | Device and method for understanding user intent | |
CN103280216B (zh) | 改进依赖上下文的语音识别器对环境变化的鲁棒性 | |
WO2018059957A1 (en) | System and method for speech recognition | |
CN108305626A (zh) | 应用程序的语音控制方法和装置 | |
US20140207776A1 (en) | Method and system for linking data sources for processing composite concepts | |
CN108463849A (zh) | 确定语言模型的对话状态 | |
CN105354199B (zh) | 一种基于场景信息的实体含义识别方法和系统 | |
CN108304372A (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
CN103700369A (zh) | 语音导航方法及系统 | |
CN109887484A (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN104424290A (zh) | 基于语音的问答系统和用于交互式语音系统的方法 | |
CN103956169A (zh) | 一种语音输入方法、装置和系统 | |
CN110415679A (zh) | 语音纠错方法、装置、设备和存储介质 | |
CN107562828B (zh) | 多源海事信息搜索与冲突处理系统及方法 | |
CN101515456A (zh) | 语音识别接口装置及其语音识别方法 | |
CN109410935A (zh) | 一种基于语音识别的目的地搜索方法及装置 | |
CN109584881A (zh) | 基于语音处理的号码识别方法、装置及终端设备 | |
CN109637529A (zh) | 基于语音的功能定位方法、装置、计算机设备及存储介质 | |
CN112579733B (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
CN117216212A (zh) | 对话处理方法、对话模型训练方法、装置、设备及介质 | |
CN113515616B (zh) | 一种基于自然语言的任务驱动系统 | |
CN113609264B (zh) | 电力系统节点的数据查询方法、装置 | |
CN113449089B (zh) | 一种查询语句的意图识别方法、问答方法及计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190802 |