CN115116442B - 语音交互方法和电子设备 - Google Patents
语音交互方法和电子设备 Download PDFInfo
- Publication number
- CN115116442B CN115116442B CN202211043779.6A CN202211043779A CN115116442B CN 115116442 B CN115116442 B CN 115116442B CN 202211043779 A CN202211043779 A CN 202211043779A CN 115116442 B CN115116442 B CN 115116442B
- Authority
- CN
- China
- Prior art keywords
- voice
- keyword
- confidence
- user
- electronic device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 230000003993 interaction Effects 0.000 title claims abstract description 39
- 230000004044 response Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 22
- 230000003796 beauty Effects 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000002618 waking effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 238000012411 cloning technique Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种语音交互方法和电子设备,该方法中,电子设备可以获取用户输入的关键词;根据关键词,生成第一语音集合和第二语音集合,第一语音集合中的第一语音包括关键词,第二语音集合中的第二语音不包括关键词;将第一语音输入至语音识别模型,得到第一语音中包括关键词的第一置信度,以及将第二语音输入至语音识别模型,得到第二语音中包括关键词的第二置信度;根据第一置信度和第二置信度,确定关键词的置信度阈值。这样,用户设置的不同的关键词,电子设备均可以得到适配于关键词的置信度阈值,可以减少电子设备对关键词的识别准确性的差异,提高语音识别的准确性。
Description
技术领域
本申请实施例涉及语音交互技术领域,尤其涉及一种语音交互方法和电子设备。
背景技术
随着人工智能技术的发展,语音交互逐渐成为用户和电子设备主流的交互方式。语音交互过程中,电子设备需要识别用户说出的语音中的关键词,以执行响应于该关键词的操作。
目前,电子设备可以采用语音识别模型,获取语音中存在关键词的置信度,在置信度大于置信度阈值时,电子设备确定语音中存在关键词。但不同的关键词,依靠语音识别模型识别的准确性不同,目前电子设备对关键词的识别准确性存在差异。
发明内容
本申请实施例提供一种语音交互方法和电子设备,可以减少电子设备对关键词的识别准确性的差异,提高语音识别的准确性。
第一方面,本申请实施例提供一种语音交互方法,执行该方法的执行主体可以为电子设备或电子设备中的芯片。在该方法中,电子设备可以获取用户输入的关键词,根据所述关键词,生成第一语音集合和第二语音集合,所述第一语音集合中的第一语音包括所述关键词,所述第二语音集合中的第二语音不包括所述关键词。也就是说,电子设备可以根据用户输入的关键词,生成正样本和负样本,其中,正样本为第一语音集合,即包括有关键词的多个第一语音,负样本为第二语音集合,即未包括有关键词的多个第二语音。
电子设备将所述第一语音输入至语音识别模型,得到所述第一语音中包括所述关键词的第一置信度,以及将所述第二语音输入至语音识别模型,得到所述第二语音中包括所述关键词的第二置信度。电子设备可以根据所述第一置信度和所述第二置信度,确定所述关键词的置信度阈值。
本申请实施例中,一方面,用户自定义设置关键词时,电子设备可以得到适配于关键词的置信度阈值,可以减少电子设备对关键词的识别准确性的差异,提高语音识别的准确性。另一方面,电子设备可以根据用户输入的关键词,生成正样本和负样本,而不是仅生成正样本,这样可以根据第一置信度和所述第二置信度,准确区分关键词和非关键词,以便得到更为准确的关键词的置信度阈值。
因为,在仅生成正样本的情况下,电子设备确定的关键词的置信度阈值,仅能保证电子设备确定语音中包括有关键词,而并不能排除语音中不包括有关键词,这样在语音中的词语与关键词非常相像的时候,采用该种方式并不能确定语音中是否包括关键词,容易出现错误,而本申请实施例中,采用正样本和负样本确定的关键词的置信度阈值,电子设备不仅可以确定语音中是否包括关键词,还可以确定语音中未包括关键词,语音识别的准确性更高。
在一种可能的实现方式中,电子设备可以根据所述关键词,获取所述关键词的发音信息;根据所述发音信息,生成不同用户的不同风格的包括有所述关键词的语音,以及不同用户的不同风格的不包括有所述关键词的语音,所述第一语音集合包括:所述不同用户的不同风格的包括有所述关键词的语音,所述第二语音集合包括:所述不同用户的不同风格的不包括有所述关键词的语音。示例性的,电子设备可以根据关键词的发音信息,采用语音合成技术,或者克隆技术,生成第一语音集合和第二语音集合。
在一种示例中,包括有所述关键词的语可以称为关键词语音,不包括有关键词的语音可以称为非关键词语音。
在该实现方式中,电子设备可以生成不同用户的不同风格的包括有所述关键词的语音,以及不同用户的不同风格的不包括有所述关键词的语音,即不限于用户的语音,因为第一语音集合和第二语音集合中的语音足够丰富,这样电子设备得到的关键词的置信度阈值的适用范围更广,即在不同用户的语音中包括关键词时,电子设备也能够根据关键词的置信度阈值,识别语音中包括关键词。
下面讲述电子设备根据所述第一置信度和所述第二置信度,确定所述关键词的置信度阈值的过程:
其一,电子设备可以根据第一预设通过率,以及所述第一置信度,确定所述关键词的置信度阈值,所述第一预设通过率用于表征:所述第一语音集合中的第一语音被识别出包括所述关键词的通过率。示例性的,电子设备可以将所述第一语音集合中的第一语音被识别出包括所述关键词,满足第一预设通过率时,将第一置信度中的最小置信度作为关键词的置信度阈值。
其二,电子设备可以根据第二通过率,以及所述第二置信度,确定所述关键词的置信度阈值,所述第二预设通过率用于表征:所述第二语音集合中的第二语音被识别出包括所述关键词的通过率。示例性的,电子设备可以将所述第二语音集合中的第二语音被识别出包括所述关键词,满足第二预设通过率时,将第二置信度中的最大置信度作为关键词的置信度阈值。
其三,在一种场景中,当所述第一语音集合中的第一语音被识别出包括所述关键词满足第一预设通过率时,其中第二语音中被识别出包括所述关键词的数量较多时,按照如上其一中的方式确定出的关键词的置信度阈值不准确,会导致很多不包括关键词的语音被识别出包括关键词。
在该种场景下,电子设备可以获取所述第一语音中包括所述关键词中每个字的第一子置信度;根据所述第一预设通过率,以及多个第一子置信度,调整所述关键词的置信度阈值。
其中,电子设备可以根据所述第一预设通过率,确定所述第二语音集合中的第二语音被识别出包括所述关键词的第一数量;根据所述第一预设通过率,确定所述第二语音集合中的第二语音被识别出包括所述关键词中的每个字的第二数量;若存在第二数量小于所述第一数量,则根据小于所述第一数量的第二数量对应的第一子置信度,调整所述关键词的置信度阈值。
同理的,在一种场景中,当所述第二语音集合中的第二语音被识别出包括所述关键词满足第一预设通过率时,其中第一语音中被识别出包括所述关键词的数量较多时,按照如上其二中的方式确定出的关键词的置信度阈值不准确,会导致很多不包括关键词的语音被识别出包括关键词。
在该种场景下,电子设备可以获取所述第二语音中包括所述关键词中每个字的第二子置信度;根据所述第二预设通过率,以及多个第二子置信度,调整所述关键词的置信度阈值。
其中,电子设备可以根据所述第二预设通过率,确定所述第二语音集合中的第二语音被识别出包括所述关键词的第三数量;根据所述第二预设通过率,确定所述第二语音集合中的第二语音被识别出包括所述关键词中的每个字的第四数量;若存在第四数量小于所述第三数量,则根据小于所述第三数量的第四数量对应的第二子置信度,调整所述关键词的置信度阈值。
在该种实现方式中,电子设备确定所述关键词的置信度阈值之后,还可以接收语音,将所述语音输入至所述语音识别模型,得到所述语音中包括所述关键词的置信度;响应于所述置信度大于或等于所述关键词的置信度阈值,执行响应于所述关键词的操作。响应于置信度小于所述关键词的置信度阈值,不响应。
在该实现方式中,因为电子设备在识别语音中是否包括关键词时,采用该关键词的置信度阈值,该关键词的置信度阈值适配于关键词,因此可以提高电子设备语音识别的准确性,即电子设备可以更准确地识别语音中是否包括关键词。
在一种可能的实现方式中,在一些语音交互安全性要求比较高的场景中,如支付场景,解锁应用的场景中,不仅需要识别语音中是否包括关键词,还需要确定语音是否为用户的语音,在语音中包括关键词,且语音为用户的语音时,电子设备可以执行响应于关键词的操作。
在该实现方式中,电子设备用户输入的关键词之后,还可以获取所述用户输入的语音,该语音可以为电子设备提示用户输入的,或者为用户在设置该关键词之前输入的。电子设备根据所述用户输入的语音,生成第三语音集合和第四语音集合,所述第三语音集合中的第三语音为所述用户的语音,所述第四语音集合中的第四语音为其他用户的语音;将所述第三语音输入至声纹模型,得到所述第一语音为所述用户的语音的第三置信度,以及将所述第四语音输入至声纹模型,得到所述第四语音为所述用户的语音的第四置信度;根据所述第三置信度和所述第四置信度,确定所述用户的声纹的置信度阈值。
在该种实现方式中,电子设备不仅可以确定关键词的置信度阈值,还可以根据用户的语音,生成确定用户的声纹的正样本和负样本,以确定用户的声纹的置信度阈值,用户的声纹的置信度阈值适配于用户的声纹,可以提高用户识别语音是否为用户的语音的准确性。
在一种可能的实现方式中,电子设备可以根据所述用户输入的语音,获取所述用户的语音模板;根据所述用户的语音模板,生成所述第三语音集合;根据所述其他用户的预设语音模板,生成所述第四语音集合。
示例性的,所述第三语音集合中的第三语音具体为:所述用户的不同风格的语音,所述第四语音集合中的第四语音具体为:所述其他用户的不同风格的语音。在一种示例中,所述第三语音集合中的第三语音具体为:所述用户的不同风格的关键词语音,所述第四语音集合中的第四语音具体为:所述其他用户的不同风格的关键词语音。
电子设备可以根据用户的语音,生成确定用户的声纹的置信度阈值的正样本和负样本,而不是仅生成正样本,这样相较于仅生成正样本(即用户的不同风格的语音),具有更高的准确性。
下面讲述电子设备根据所述第三置信度和所述第四置信度,确定所述关键词的置信度阈值的过程:
其一,电子设备可以根据第三预设通过率,以及所述第三置信度,确定所述用户的声纹的置信度阈值,所述第三预设通过率用于表征:所述第三语音集合中第三语音被识别为所述用户的语音的通过率。示例性的,电子设备可以将所述第三语音集合中的第三语音被识别出为用户的语音,满足第三预设通过率时,将第三置信度中的最小置信度作为用户的声纹的置信度阈值。
其二,电子设备可以根据第四预设通过率,以及所述第四置信度,确定所述用户的声纹的置信度阈值,所述第四预设通过率用于表征:所述第四语音集合中第四语音被识别为所述用户的语音的通过率。示例性的,电子设备可以将所述第四语音集合中的第四语音被识别出为用户的语音,满足第四预设通过率时,将第四置信度中的最大置信度作为用户的声纹的置信度阈值。
在该种实现方式中,电子设备在接收到语音后,还可以将所述语音输入至所述声纹模型,得到所述语音为所述用户的语音的置信度。电子设备响应于所述语音中包括所述关键词的置信度大于或等于所述关键词的置信度阈值,以及所述语音为所述用户的语音的置信度大于或等于所述用户的声纹的置信度阈值,执行响应于所述关键词的操作。电子设备响应于语音中包括所述关键词的置信度小于所述关键词的置信度阈值,或者所述语音为所述用户的语音的置信度小于所述用户的声纹的置信度阈值,可以不响应。
在该实现方式中,电子设备可以根据适配于关键词的置信度阈值,以及适配于用户的声纹的置信度阈值,不仅可以准确识别语音中是否包括关键词,还可以准确识别语音是否为用户的语音,可以进一步提高电子设备与用户进行语音交互的准确性,提高用户体验。
第二方面,本申请实施例提供一种电子设备,该电子设备可以包括:处理器、存储器。存储器用于存储计算机可执行程序代码,程序代码包括指令;当处理器执行指令时,指令使所述电子设备执行如第一方面中的方法。
第三方面,本申请实施例提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面中的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面中的方法。
上述第二方面至第四方面的各可能的实现方式,其有益效果可以参见上述第一方面所带来的有益效果,在此不加赘述。
附图说明
图1为用户在电子设备上自定义设置关键词的一种界面示意图;
图2为用户在电子设备上自定义设置关键词的一种流程示意图;
图3为本申请实施例提供的语音交互方法的一种实施例的流程示意图;
图4为本申请实施例提供的电子设备获取关键词的置信度阈值的一种流程示意图;
图5为本申请实施例提供的语音交互方法的另一种实施例的流程示意图;
图6为本申请实施例提供的语音交互方法的另一种实施例的流程示意图;
图7为本申请实施例提供的电子设备获取用户的声纹的置信度阈值的一种流程示意图;
图8为本申请实施例提供的语音交互方法的另一种实施例的流程示意图;
图9为本申请实施例提供的电子设备的一种结构示意图。
具体实施方式
本申请实施例中的专业术语释义:
置信度:本申请实施例中指的是语音中存在关键词的可信度,置信度也可以理解为语音中存在关键词的概率。
置信度阈值:语音中存在关键词的最小概率,若语音中存在关键词的概率大于或等于该最小概率,表征语音中存在关键词,若语音中存在关键词的概率小于该最小概率,表征语音中不存在关键词。
用户的声纹:表征用户的声音的特征。在一种示例中,语音交互过程中,除了识别语音中是否包括关键词之外,还需要识别语音是否为用户的语音,即识别语音中的声纹是否为设置关键词的用户的声纹。在语音中的声纹为设置关键词的用户的声纹的情况下,电子设备可以执行响应于关键词的操作。示例性的,用户A设置关键词解锁电子设备的场景下,用户A说出关键词可以解锁电子设备,用户B说出关键词无法解锁电子设备。
关键词语音:包括关键词的语音。
非关键词语音:不包括关键词的语音。
用户与电子设备的语音交互过程中,电子设备需要识别用户说出的语音中的关键词,以执行响应于该关键词的操作。在一种示例中,关键词可以为唤醒词,该唤醒词可以用于唤醒电子设备、唤醒电子设备中的应用,或解锁电子设备等,即电子设备识别到语音中的唤醒词,可以执行唤醒电子设备、唤醒电子设备中的应用,或解锁电子设备等操作,本申请实施例对唤醒词的作用不做限制。在一种示例中,如用户说出“播放音乐”的语音,电子设备响应于该关键词,播放音频,本申请实施例对电子设备执行响应于关键词的操作不做限制。
电子设备能否正确地响应用户的语音,与电子设备是否能够准确识别语音中的关键词相关。目前,电子设备可以采用语音识别模型,获取语音中存在关键词的置信度,在置信度大于或等于置信度阈值时,电子设备确定语音中存在关键词。电子设备是否能够准确识别语音中的关键词与置信度阈值相关,目前关键词的置信度阈值是定值,即对于不同的关键词,关键词的置信度阈值是相同的。
而对于不同的关键词,语音识别模型能够在语音中识别到关键词的准确性不同。示例性的,如语音识别模型的训练数据中包括关键词1的语音较多,则语音识别模型能够识别出关键词1的准确性高,语音识别模型的训练数据中包括关键词2的语音较少,则语音识别模型能够识别出关键词1的准确性低,即电子设备对关键词的识别准确性存在差异。
目前,用户可以在电子设备上自定义设置不同的关键词,若电子设备对用户设置的关键词均采用相同的置信度阈值进行语音识别,则会存在置信度阈值过高或者过低的情况,即置信度阈值与关键词不匹配,导致关键词识别不准确。
为了提高语音识别的准确性,即提高识别关键词的准确性,本申请实施例提供了一种语音交互方法,对于用户自定义设置的关键词,可以获取匹配于该关键词的置信度阈值,不同关键词的置信度阈值不同。
本申请实施例中的语音交互方法可以包括:关键词设置阶段、关键词的置信度阈值获取阶段,以及关键词的置信度阈值的应用阶段。在一种示例中,语音交互方法还可以包括:用户的声纹的置信度阈值获取阶段,以及用户的声纹的置信度阈值的应用阶段。
关键词设置阶段:
下面结合图1对用户在电子设备上自定义设置关键词的阶段进行说明,应理解,图1为用户在电子设备上自定义设置关键词的一种示例,并不构成对本申请的限定。
图1中以电子设备为手机为例,且以用户自定义设置智慧语音的唤醒词(关键词)为例。用户可以在电子设备的设置应用中设置关键词,或者用户可以在应用的设置中设置关键词,图1中以用户在设置应用的智慧助手中的“智慧语音”中设置关键词为例。
图1中的a为智慧语音的设置界面,该界面上显示有语音唤醒选项11。用户点击该语音唤醒选项11,电子设备可以显示语音唤醒的设置界面。参照图1中的b,语音唤醒的设置界面中包括唤醒词设置区域12,用户可以在唤醒词设置区域12中自定义设置唤醒词。如用户点击唤醒词设置区域12中的自定义13控件,电子设备可以显示输入自定义关键词的界面,如图1中的c所示。
在一些安全性要求低的场景中,如关键词用于触发播放歌曲、触发拍照等场景中,用户在图1中的c所示的界面中输入关键词,就可以完成关键词的设置。在一些示例中,用户还可以采用语音输入关键词的方式,设置关键词。
在一些安全性要求高的场景中,如设置的唤醒词用于解锁电子设备、解锁应用、支付等场景中,电子设备还需要提示用户录入关键词的语音,以便于获取用户的声纹,以在后续语音交互过程中检测语音是否为用户的语音,以保证语音交互的安全性。示例性的,如图1中的c中,用户输入关键词之后,电子设备可以提示用户录入三遍关键词的语音,在用户录入三遍关键词的语音之后,关键词设置完成。示例性的,用户可以说出关键词,电子设备识别到关键词后,可以获取关键词的文本,且显示在电子设备的界面上,并提示用户再次说出关键词,直至电子设备确定用户说出三遍关键词。
在安全性要求高的场景中,在一种示例中,若电子设备预先录取过用户的语音,则用户在设置关键词时,可以无需提示用户说出关键词语音。示例性的,参照图1中的c,用户在输入关键词后,若电子设备之前录取过用户的语音,如电子设备之前录取过用户设置其他关键词的语音,或者电子设备录取过用户在打电话或音视频通话时的语音,电子设备可以不提示用户录入关键词语音。
在一种实施例中,用户自定义设置关键词的过程可以如图2所示。参照图2,用户自定义设置关键词的过程包括:用户输入关键词,若关键词应用的场景需要检测用户的声纹,电子设备可以提示用户继续输入关键词的语音,在用户输入关键词语音后,关键词设置完成。若关键词应用的场景不需要检测用户的声纹,关键词设置完成。
本申请实施例提供的语音交互方法,可以应用到一个电子设备或者一组电子设备中。一组电子设备可以包括多个电子设备,多个电子设备均具备语音交互功能,多个电子设备的关键词可以相同或不同。本申请实施例中的电子设备例如可以为手机、平板电脑(portable android device,PAD)、个人数字处理(personal digital assistant,PDA)、具有无线通信功能的手持设备、计算设备、车载设备或可穿戴设备,虚拟现实(virtualreality,VR)终端设备、增强现实(augmented reality,AR)终端设备、工业控制(industrial control)中的无线终端、智慧家庭(smart home)中的无线终端等,本申请实施例中对电子设备的形态不做具体限定。
本申请应用的一种可能的应用场景中,可以实现用户根据需求为电子设备设置一个或者多个关键词。在一种示例中,用户还可以设置关键词对应的操作,比如唤醒电子设备,唤醒电子设备中的一应用,解锁电子设备等。
在该第一种可能的应用场景中,可以通过电子设备为自身或者其它电子设备设置唤醒词。需要说明的是,本申请中提及的为其他电子设备设置唤醒词,可以将唤醒词以及唤醒词对应的置信度阈值发送给该其他电子设备。
在该种场景中,作为一种示例,电子设备可以为自身设置关键词,确定该关键词的置信度阈值的设备可以是电子设备,也可以是一个服务器。当确定关键词的置信度阈值的设备为服务器时,用户可以通过电子设备设置关键词,由服务器根据关键词确定关键词的置信度阈值再发送给电子设备。当确定关键词的置信度阈值的设备为电子设备时,用户可以通过该电子设备设置关键词,由电子设备根据关键词确定关键词的置信度阈值。用户说出关键词时,电子设备可以接收用户的语音,根据该关键词的置信度阈值进行判决,以确定语音中是否包括该关键词。下述实施例中以电子设备确定关键词的置信度阈值为例进行说明。
作为另一种示例,电子设备可以为其他电子设备设置关键词,确定该关键词的置信度阈值的设备可以是电子设备,也可以是一个服务器。当确定关键词的置信度阈值的设备为服务器时,用户可以通过该电子设备设置关键词,由服务器根据关键词确定关键词的置信度阈值再发送给其他电子设备。当确定关键词的置信度阈值的设备为电子设备时,用户可以通过该电子设备设置关键词,由电子设备根据关键词确定关键词的置信度阈值再发送给其他电子设备。
在另一种可能的应用场景中,用户可以根据需求统一管理多个电子设备的关键词,该多个电子设备可以共用关键词,也支持电子设备的关键词的查询、更新。比如,用户设置关键词“小x小x”,能够同时唤醒电子设备1、电子设备2和电子设备3。在一种示例中,电子设备、电子设备2和电子设备3响应于该关键词“小x小x”执行的操作可以相同或不同。
应理解,本申请实施例中提供的语音交互方法可以不限于应用于汉语,还可以应用其他种类的语言中,下述实施例中以汉语为例进行说明。
下面结合具体的实施例对本申请实施例提供的语音交互方法进行说明。下面这几个实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
关键词的置信度阈值获取阶段:
图3为本申请实施例提供的语音交互方法的一种实施例的流程示意图。参照图3,本申请实施例提供的语音交互方法可以包括:
S301,获取用户输入的关键词。
用户可以在电子设备上设置关键词,相应的,电子设备可以获取用户输入的关键词,用户设置关键词的过程可以参照图1中的相关描述。
S302,根据用户输入的关键词,生成第一语音集合和第二语音集合,第一语音集合中的第一语音包括关键词,第二语音集合中的第二语音不包括关键词。
第一语音集合中包括多个第一语音,每个第一语音中包括关键词。第一语音集合中的第一语音可以作为获取关键词的置信度阈值的正样本,在一种示例中,正样本可以称为正例。第二语音结合中包括多个第二语音,每个第二语音中不包括关键词。第二语音集合中的第二语音可以作为获取关键词的置信度阈值的负样本,在一种示例中,负样本可以称为负例。
下面先介绍电子设备生成第一语音集合的方法:
其一,在一种实施例中,电子设备可以根据用户输入的关键词,生成关键词的发音信息。关键词的发音信息可以包括但不限于:音节、音素,以及拼音。示例性的,电子设备可以将关键词输入至字素到音素(grapheme to phoneme,G2P)模型,得到关键词的发音信息。或者,示例性的,电子设备中可以存储字典,电子设备可以根据关键词,查询字典,得到关键词的发音信息。
示例性的,以发音信息为音节为例,用户输入的关键词为“你好美丽”,电子设备可以生成关键词的音节如“(ni3)_(hao3)_(mei3)_(li4)”。应理解,音节中的数字表征关键词中字的声调。
在一种可能的场景中,若电子设备未能获取关键词中某个字的发音,则电子设备可以提示用户标注关键词的发音。示例性的,如电子设备不能获取关键词“你好美丽”中“美”的发音,电子设备可以在界面上显示第一提示信息,该第一提示信息用于提示用户标注“美”的发音。在该示例中,电子设备响应于接收到用户输入的“美”的发音,可以获取关键词的发音。
在一种实施例中,电子设备可以提示用户输入关键词的发音信息。示例性的,电子设备响应于用户输入关键词,可以播放“请输入关键词的音节”的语音,用户可以在电子设备的界面上输入关键词的音节,相应的,电子设备可以得到用户输入的关键词的发音信息。
电子设备可以根据关键词的发音信息,生成多个第一语音,即第一语音集合。
在一种示例中,电子设备可以采用文本转语音(text to speech,TTS)技术,根据关键词的发音信息,生成不同风格的关键词语音,该不同风格的关键词语音可以称为多个第一语音。在一种示例中,文本转语音技术可以称为语音合成技术。不同风格的关键词语音可以包括但不限于:不同情感、不同语调的关键词语音。情感如平静、开心、激动等,语调如缓和、急促等。应理解,该不同风格的关键词语音可以为同一用户的不同风格的关键词语音,示例性的,电子设备中可以存储预设语音模板,电子设备可以采用TTS技术或克隆技术,根据关键词的发音信息,生成不同风格的关键词语音。
在一种示例中,为了保证关键词的置信度阈值的准确性,电子设备还可以采用TTS技术,根据关键词的发音信息,生成不同用户的不同风格的关键词语音,该不同用户的不同风格的关键词语音也称为第一语音。这样,正样本足够多,且包括关键词的语音的种类也足够丰富,可以提高获取置信度阈值的准确性。在该种示例中,电子设备中可以存储不同用户的语音模板,进而采用TTS技术,根据关键词的发音信息,生成不同用户的不同风格的关键词语音。
其二,在一种实施例中,电子设备可以在关键词的前面或后面添加一些非关键词,以得到包括有关键词的第一词语。非关键词可以为预设词语,如“我的”、“我”等。电子设备在得到第一词语后,可以采用TTS技术,生成不同风格的关键词语音,或者生成不同用户的不同风格的关键词语音。
下面再介绍电子设备生成第二语音集合的方法:
第二语音集合中的每个第二语音不包括关键词。其中,第二语音中不包括关键词可以理解为:第二语音中未包括关键词中的所有字,但包括关键词中的部分字,或者第二语音中不包括关键词中的任一个字。
其一,在一种实施例中,电子设备可以删除关键词中的任一个字,然后在删除字后的关键词的前面、后面或中间添加非关键词,以得到不包括关键词的词语。电子设备可以采用TTS技术,根据不包括关键词的词语,生成不同风格的非关键词语音,和/或,生成不同用户的不同风格的非关键词语音。其中,不同风格的非关键词语音和不同用户的不同风格的非关键词语音均可以称为多个第二语音。
在一种示例中,电子设备可以根据不包括关键词的词语,获取不包括关键词的词语的发音信息。在该示例中,电子设备可以采用TTS技术,根据不包括关键词的词语的发音信息,生成不同风格的非关键词语音,和/或,生成不同用户的不同风格的非关键词语音。不包括关键词的词语的发音信息的生成方式,可以参照关键词的发音信息的相关描述。
其二,在一种实施例中,电子设备中可以预置有多个预设词语或预设语句,电子设备在获取关键词后,可以在多个预设词语或预设语句中,获取不包括有关键词的词语或语句,进而电子设备可以根据不包括有关键词的词语或语句,采用TTS技术,生成不同风格的非关键词语音,和/或,生成不同用户的不同风格的非关键词语音。
在一种实施例中,用户还可以采用语音的方式输入关键词,在该种实施例中,电子设备可以采用语音转文本的技术,获取关键词。为了保证关键词的准确性,电子设备在获取关键词之后,还可以在界面上显示关键词,以供用户确定界面上显示的关键词是否为用户说出的关键词。其中,用户可以确定或者修改关键词,以便电子设备可以获取正确的关键词。电子设备在获取正确的关键词之后,可以采用如上方式获取第一语音集合和第二语音集合。
换句话说,本申请实施例中,电子设备可以根据用户输入的关键词,生成包括有关键词的正样本,以及未包括有关键词的负样本。
S303,将第一语音集合中的第一语音输入至语音识别模型,得到第一语音中包括关键词的第一置信度,以及将第二语音集合中的第二语音输入至语音识别模型,得到第二语音中包括关键词的第二置信度。
语音识别模型,用于识别语音中的关键词,得到语音中包括关键词的置信度。本申请实施例中可以采用现有的语音识别模型。
其中,电子设备可以将第一语音集合中的第一语音输入至语音识别模型,得到第一语音中包括关键词的第一置信度。因为第一语音集合中包括多个第一语音,因此电子设备可以得到每个第一语音中包括关键词的第一置信度,即电子设备可以得到多个第一置信度。
相应的,电子设备可以将第二语音集合中的第二语音输入至语音识别模型,得到第二语音中包括关键词的第二置信度。因为第二语音集合中包括多个第二语音,因此电子设备可以得到每个第二语音中包括关键词的第二置信度,即电子设备可以得到多个第二置信度。
换句话说,电子设备可以根据包括有关键词的正样本,以及未包括有关键词的负样本,得到每个样本中包括关键词的置信度,即得到置信度分布。
S304,根据第一置信度和第二置信度,确定关键词的置信度阈值。
在一种实施例中,为了保证电子设备可以根据语音识别模型,能够识别出语音中的关键词,电子设备可以将第一置信度中的最小置信度设置为关键词的置信度阈值,或者,电子设备还可以将第二置信度中的最大置信度设置为关键词的置信度阈值。在该种示例中,若第一置信度中的最小置信度小于第二置信度中的最大置信度,电子设备可以将第一置信度中,大于第二置信度中的最大置信度的最小置信度设置为置信度阈值。
在一种实施例中,电子设备根据第一置信度和第二置信度,可以得到置信度分布。电子设备可以根据置信度分布,确定关键词的置信度阈值。
其一,可以预设正样本中包括关键词的通过率,通过率如95%,即允许能够识别95%的正样本中包括关键词。在一种示例中,预设正样本中包括关键词的通过率可以称为“第一预设通过率”。在该种方式中,电子设备可以获取通过率为95%时,正样本的第一置信度中最小的置信度,进而将该最小置信度作为关键词的置信度阈值。
示例性的,所有的正样本有100个,通过率为95%时,电子设备可以按照第一置信度从高到低的排序,获取前95个置信度,该95个置信度中的最小置信度可以作为关键词的置信度阈值。
其二,可以预设负样本中包括关键词的通过率,通过率如5%,即允许能够识别5%的负样本中包括关键词。在一种示例中,预设负样本中包括关键词的通过率可以称为“第二预设通过率”。在该种方式中,电子设备可以获取通过率为5%时,负样本的第二置信度中最小的置信度,进而将该最小置信度作为关键词的置信度阈值。
示例性的,所有的负样本有100个,通过率为5%时,电子设备可以按照第二置信度从高到低的排序,获取前5个置信度,该5个置信度中的最小置信度可以作为关键词的置信度阈值。
其三,在预设正样本中包括关键词的通过率的情况下,若负样本中存在很多样本也能够通过,即也能识别负样本中包括关键词,则采用如上“其一”的方式确定的置信度阈值不准确,本申请实施例中,可以在预设正样本中包括关键词的通过率的情况下,采用关键词中的字的方式,进一步确定关键词的置信度阈值。
在该实现方式中,以预设正样本中包括关键词的通过率为例,示例性的,在预设正样本中包括关键词的通过率为95%的情况下,很多负样本也被识别其中包括有关键词,即采用正样本的第一置信度中最小的置信度作为关键词的置信度阈值不准确。
在该种实现方式中,可以获取正样本中包括关键词中的每个字的第一子置信度,进而根据正样本中包括关键词中的每个字的第一子置信度,调整上述其一中获取的关键词的置信度阈值,得到更为准确的关键词的置信度阈值。
示例性的,电子设备可以获取正样本中包括关键词“你好美丽”中的“你”的第一子置信度A,正样本中包括关键词“你好美丽”中的“好”的第一子置信度B,正样本中包括关键词“你好美丽”中的“美”的第一子置信度C,以及正样本中包括关键词“你好美丽”中的“丽”的第一子置信度D。
在一种可能的实现方式中,电子设备可以预设正样本中包括关键词中的每个字的通过率,如95%。在正样本中包括关键词中的每个字的通过率为95%时,电子设备可以确定“负样本中被识别为包括关键词中的每个字的数量(或比例)”,进而根据“负样本中被识别为包括关键词中的每个字的数量(或比例)”和“负样本中被识别为包括关键词的数量(或比例)”,调整上述其一中获取的关键词的置信度阈值,得到更为准确的关键词的置信度阈值。
示例性的,以“数量”为例,在正样本中包括关键词中的每个字的通过率为95%时,电子设备可以确定负样本中包括关键词“你好美丽”中的“你”的数量a,负样本中包括关键词“你好美丽”中的“好”的数量b,负样本中包括关键词“你好美丽”中的“美”的数量c,以及负样本中包括关键词“你好美丽”中的“丽”的数量d。
其中,若在预设正样本中包括关键词的通过率为95%的情况下,被识别其中包括有关键词的负样本的数量为e,如果数量a小于数量e,电子设备可以根据第一子置信度A,调整关键词的置信度阈值。如电子设备可以获取通过率为95%时,正样本的第一子置信度A中最小的置信度,进而将该最小置信度调整为关键词的置信度阈值。在一种示例中,数量e可以称为第一数量,数量a-数量d均可以称为第二数量。
在一种实施例中,若数量a-数量d中存在多个小于数量e,则可以根据任一个数量对应的第一子置信度,确定关键词的置信度阈值。如数量a、数量b以及数量c均小于数量e,电子设备可以根据任一数量,如数量b对应的第一子置信度B,调整关键词的置信度阈值,如电子设备可以获取通过率为95%时,正样本的第一子置信度B中最小的置信度,进而将该最小置信度调整为关键词的置信度阈值。
或者,可以根据数量a-数量d中最小的数量对应的第一子置信度,确定关键词的置信度阈值,可以参照上述的相关描述。如数量a、数量b以及数量c均小于数量e,且数量a最小,则电子设备可以根据第一子置信度A,调整关键词的置信度阈值。如电子设备可以获取通过率为95%时,正样本的第一子置信度A中最小的置信度,进而将该最小置信度调整为关键词的置信度阈值。
同理的,在预设负样本中包括关键词的通过率的情况下,若正样本中存在很多样本也能够通过,则采用如上“其二”的方式确定的置信度阈值不准确,本申请实施例中,可以在预设负样本中包括关键词的通过率的情况下,采用关键词中的字的方式,进一步确定关键词的置信度阈值,可以参照上述的相关描述。
图4为本申请实施例提供的电子设备获取关键词的置信度阈值的一种流程示意图。参照图4,电子设备获取关键词的置信度阈值的过程可以包括:获取用户输入的关键词的发音信息,根据关键词的发音信息,生成不同用户的不同风格的关键词语音,即第一语音,以及不同用户的不同风格的非关键词语音,即第二语音。电子设备将第一语音和第二语音输入至语音识别模型中,得到正样本和负样本中包括关键词的置信度分布,进而电子设备可以根据置信度分布,确定关键词的置信度阈值。
本申请实施例中,电子设备针对用户自定义设置的关键词,可以生成包括有关键词的正样本,以及未包括有关键词的负样本,且根据包括有关键词的正样本,以及未包括有关键词的负样本,获取语音中包括有关键词的置信度分布,进而根据置信度分布确定适配于该关键词的置信度阈值。因为置信度阈值适配于该关键词,避免了置信度阈值过大或过小的问题,可以保证电子设备识别语音中关键词的准确性。
另外,电子设备可以根据用户输入的关键词,生成正样本和负样本,而不是仅生成正样本,这样可以根据第一置信度和所述第二置信度,准确区分关键词和非关键词,以便得到更为准确的关键词的置信度阈值。因为,在仅生成正样本的情况下,电子设备确定的关键词的置信度阈值,仅能保证电子设备确定语音中包括有关键词,而并不能排除语音中不包括有关键词,这样在语音中的词语与关键词非常相像的时候,采用该种方式并不能确定语音中是否包括关键词,容易出现错误,而本申请实施例中,采用正样本和负样本确定的关键词的置信度阈值,电子设备不仅可以确定语音中是否包括关键词,还可以确定语音中未包括关键词,语音识别的准确性更高。
关键词的置信度阈值的应用阶段:
参照图3和图4,电子设备可以获取关键词的置信度阈值,在后续用户和电子设备的语音交互过程中,电子设备可以根据该关键词的置信度阈值,检测语音中是否包括关键词。图5为关键词的置信度阈值的应用阶段的流程示意图,参照图5,关键词的置信度阈值的应用阶段可以包括:
S501,接收语音。
语音可以为用户发出的语音,或由电子设备发出的语音,本申请实施例对此不作限制。
在语音识别时,电子设备可以接收语音,以检测语音中是否包括关键词。
S502,将语音输入至语音识别模型,得到语音中包括有关键词的置信度。
S503,响应于置信度大于或等于关键词的置信度阈值,执行响应于该关键词的操作。
关键词的置信度阈值为基于图3或图4得到的置信度阈值,当语音识别模型输出的语音中包括有关键词的置信度大于或等于关键词的置信度阈值时,表征语音中包括关键词,电子设备可以执行响应于该关键词的操作。其中,电子设备执行响应于该关键词的操作可以参照上述实施例中的相关描述。
S504,响应于置信度小于关键词的置信度阈值,不响应。
当语音识别模型输出的语音中包括有关键词的置信度小于关键词的置信度阈值时,表征语音中不包括关键词,电子设备可以不响应,即不执行响应于该关键词的操作。在一种示例中,电子设备识别到语音中不包括有关键词时,电子设备可以播放如“不知道您的意图,请重新说”的语音,以表征电子设备不能识别语音中的关键词。
本申请实施例中,用户在自定义设置关键词后,电子设备可以获取适配于该关键词的置信度阈值,进而在用户和电子设备的语音交互过程中,电子设备可以采用该关键词的置信度阈值,检测用户的语音中是否包括关键词,可以提高语音交互的准确性,使得电子设备可以更为准确地响应用户的语音,提高用户体验。
用户的声纹的置信度阈值的获取阶段:
在一些安全性要求高的场景中,用户在自定义设置关键词,还要说出关键词语音,以便电子设备可以根据关键词语音,获取用户的声纹。在该种场景下,电子设备不仅可以获取关键词的置信度阈值,还可以获取用户的声纹的置信度阈值,以便于电子设备可以根据用户的声纹的置信度阈值,检测语音是否为用户的语音。
在该种场景下,参照图6,本申请实施例提供的语音交互方法还可以包括S601-S606。应理解,S601-S606可以在S301或S304之后执行,本申请实施例对此不作限制。参照图6,本申请实施例提供的语音交互方法可以包括:
S601,获取用户输入的关键词语音。
关键词语音为用户说出的包括有关键词的语音。示例性的,如关键词为“你好美丽”,则用户可以说出“ni hao mei li”的语音,该语音为关键词语音。
在一种实施例中,若电子设备预先录取过用户的语音,则电子设备无需再提示用户输入关键词语音。相应的,下述实施例电子设备可以使用预先录取过用户的语音,获取用户的语音模板。在一种实施例中,若电子设备未预先录取过用户的语音,则电子设备可以提示用户输入语音,无需是关键词语音,只要是设置关键词的用户的语音即可,在该实施例中,下述实施例电子设备可以使用用户输入的语音,获取用户的语音模板。
S602,根据关键词语音,获取用户的语音模板。
在一种实施例中,语音模板可以包括但不限于为用户的语音特征。用户的语音特征可以包括但不限于:语谱图、Mel频率倒谱系数(Mel frequency cepstrum coefficient,MFCC),以及滤波器组(filter bank,FBank)等。
S603,根据用户的语音模板,生成第三语音集合。
在一种实施例中,第三语音集合包括:多个第三语音,第三语音均为用户的语音,且不同的第三语音为不同风格的语音。换句话说,第三语音集合可以包括:用户的不同风格的语音。示例性的,电子设备可以根据用户的语音模板,采用TTS技术,生成用户的不同风格的第三语音,以得到第三语音集合。
在一种实施例中,第三语音集合可以包括:用户的不同风格的关键词语音。在该种实施例中,电子设备可以根据用户的语音模板,以及用户输入的关键词,生成用户的不同风格的关键词语音。
其中,第三语音集合中的第三语音可以作为获取用户的声纹的置信度阈值的正样本。
S604,生成第四语音集合。
第四语音集合中包括多个第四语音。在一种实施例中,第四语音为不同用户的不同风格的语音。示例性的,电子设备中可以存储不同用户的语音模板,进而电子设备可以采用TTS技术,根据不同用户的语音模板,生成不同用户的不同风格的语音。
在一种实施例中,第四语音可以包括:不同用户的不同风格的关键词语音和/或,非关键词语音。在该种实施例中,电子设备中可以采用TTS技术,根据关键词的发音信息,生成不同用户的不同风格的关键词语音。和/或,电子设备中可以采用TTS技术,根据预设词语或预设语句中不包括关键词的词语、语句,生成不同用户的不同风格的非关键词语音。
应注意,第四语音集合中不包括设置关键词的用户的语音,第四语音集合中的第四语音可以作为获取用户的声纹的置信度阈值的负样本。
S605,将第三语音集合中的第三语音输入至声纹模型,得到第三语音为用户的语音的第三置信度,以及将第四语音集合中的第四语音输入至声纹模型,得到第四语音为用户的语音第四置信度。
声纹模型,用于识别语音是否为用户的语音,得到语音为用户的语音的置信度。本申请实施例中可以采用现有的声纹模型。应理解,本申请实施例中的用户的语音,指的是设置关键词的用户的语音。
其中,电子设备可以将第三语音集合中的第三语音输入至声纹模型,得到第三语音为用户的语音中的第三置信度。因为第三语音集合中包括多个第三语音,因此电子设备可以得到每个第三语音为用户的语音的第三置信度,即电子设备可以得到多个第三置信度。
相应的,电子设备可以将第四语音集合中的第四语音输入至声纹模型,得到第四语音为用户的语音的第四置信度。因为第四语音集合中包括多个第四语音,因此电子设备可以得到每个第四语音为用户的语音的第四置信度,即电子设备可以得到多个第四置信度。
换句话说,电子设备可以根据用户的不同风格的语音(正样本),以及其他用户的不同风格的语音(负样本),得到每个样本是否为用户的语音的置信度,即得到置信度分布。
S606,根据第三置信度和第四置信度,确定用户的声纹的置信度阈值。
在一种实施例中,为了保证电子设备可以根据声纹模型,能够识别出用户的语音,电子设备可以将第三置信度中的最小置信度设置为关键词的置信度阈值,或者,电子设备还可以将第四置信度中的最大置信度设置为关键词的置信度阈值。在该种示例中,若第三置信度中的最小置信度小于第四置信度中的最大置信度,电子设备可以将第三置信度中,大于第四置信度中的最大置信度的最小置信度设置为置信度阈值。
在一种实施例中,电子设备根据第三置信度和第四置信度,可以得到置信度分布。电子设备可以根据置信度分布,确定关键词的置信度阈值。
其一,可以预设正样本为用户的语音的通过率,通过率如90%,即允许能够识别95%的正样本为用户的语音。在一种示例中,预设正样本为用户的语音的通过率可以称为“第三预设通过率”,第三预设通过率可以与第一预设通过率相同或不同。
在该种方式中,电子设备可以获取通过率为90%时,正样本的第三置信度中最小的置信度,进而将该最小置信度作为用户的声纹的置信度阈值。示例性的,所有的正样本有100个,通过率为90%时,电子设备可以按照第三置信度从高到低的排序,获取前90个置信度,该90个置信度中的最小置信度可以作为关键词的置信度阈值。
其二,可以预设负样本为用户的语音的通过率,通过率如3%,即允许能够识别3%的负样本为用户的语音。在一种示例中,预设负样本为用户的语音的通过率可以称为“第四预设通过率”,第四预设通过率可以与第二预设通过率相同或不同。
在该种方式中,电子设备可以获取通过率为3%时,负样本的第四置信度中最小的置信度,进而将该最小置信度作为关键词的置信度阈值。示例性的,所有的负样本有100个,通过率为3%时,电子设备可以按照第四置信度从高到低的排序,获取前3个置信度,该3个置信度中的最小置信度可以作为用户的声纹的置信度阈值。
图7为本申请实施例提供的电子设备获取用户的声纹的置信度阈值的一种流程示意图。参照图7,电子设备获取用户的声纹的置信度阈值的过程可以包括:获取用户输入的关键词语音,根据关键词语音,生成用户的不同风格的语音,即第三语音,以及其他用户的不同风格的语音,即第四语音。电子设备将第三语音和第四语音输入至声纹模型中,以得到正样本和负样本为用户的语音的置信度分布,进而电子设备可以根据置信度分布,确定用户的声纹的置信度阈值。
本申请实施例中,电子设备可以根据用户输入的关键词语音,生成用户的不同风格的语音,以及其他用户的不同风格的语音,且根据用户的不同风格的语音,以及其他用户的不同风格的语音,获取语音是否为用户的语音的置信度分布,进而根据置信度分布确定适配于用户的声纹的置信度阈值。因为置信度阈值适配于该用户的声纹,避免了置信度阈值过大或过小的问题,可以保证电子设备识别用户的声纹的准确性,即可以保证识别语音为用户的语音的准确性。
关键词的置信度阈值和用户的声纹的置信度阈值的应用阶段:
在电子设备获取关键词的置信度阈值,以及用户的声纹的置信度阈值后,用户与电子设备的语音交互过程中,电子设备可以采用关键词的置信度阈值,以及用户的声纹的置信度阈值,检测语音是否为用户的语音,以及语音中是否包括关键词。其中,在语音为用户的语音,以及语音中包括关键词时,电子设备可以执行响应于该关键词的操作。
在该实施例中,参照图8,本申请实施例提供的语音交互的方法可以包括:
S801,接收语音。
S802,将语音输入至语音识别模型,得到语音中包括有关键词的置信度。
S801-S802可以参照S501-S502中的描述。
S803,将语音输入至声纹模型,得到语音为用户的语音的置信度。
应理解,S802和S803没有先后顺序的区分,二者可以同时执行。
S804,响应于语音中包括有关键词的置信度大于或等于关键词的置信度阈值,以及语音为用户的语音的置信度大于或等于用户的声纹的置信度,执行响应于该关键词的操作。
当语音中包括有关键词的置信度大于或等于关键词的置信度阈值,以及语音为用户的语音的置信度大于或等于用户的声纹的置信度时,表征语音为用户说出的语音,且语音中包括有关键词,电子设备可以执行响应于该关键词的操作。其中,电子设备执行响应于该关键词的操作可以参照上述实施例中的相关描述。
S805,响应于语音中包括有关键词的置信度小于关键词的置信度阈值,或语音为用户的语音的置信度小于用户的声纹的置信度,不响应。
当语音中包括有关键词的置信度小于关键词的置信度阈值,表征语音中不包括关键词,电子设备可以不响应,或者可以播放如“不知道您的意图,请重新说”的词语,以表征电子设备不能识别语音中的关键词。
当语音为用户的语音的置信度小于用户的声纹的置信度时,表征语音不为用户的语音,在该种情况下,电子设备可以不响应,或者,电子设备可以播放如“您没有权限,换一个用户试试”的语音,以表征电子设备识别出语音不为用户的语音。
本申请实施例中,电子设备可以获取适配于关键词的置信度阈值,以及适配于用户的声纹的置信度阈值,进而在用户和电子设备的语音交互过程中,电子设备可以采用该关键词的置信度阈值,以及用户的声纹的置信度阈值,判断用户的语音中是否包括关键词,以及语音是否为用户的语音,可以提高语音交互的准确性,能够提高用户体验。
在一种实施例中,本申请实施例还提供一种电子设备,该电子设备可以为上述实施例中所述的电子设备。参照图9,该电子设备中可以包括:处理器901(例如CPU)、存储器902。存储器902可能包括高速随机存取存储器(random-access memory,RAM),也可能还包括非易失性存储器(non-volatile memory,NVM),例如至少一个磁盘存储器,存储器902中可以存储各种指令,以用于完成各种处理功能以及实现本申请的方法步骤。
可选的,本申请涉及的电子设备还可以包括:电源903、通信总线904以及通信端口905。上述通信端口905用于实现电子设备与其他外设之间进行连接通信。在本申请实施例中,存储器902用于存储计算机可执行程序代码,程序代码包括指令;当处理器901执行指令时,指令使电子设备的处理器901执行上述方法实施例中的动作,其实现原理和技术效果类似,在此不再赘述。
在一种示例中,电子设备还可以包括显示屏906,显示屏906用于显示电子设备的界面。
需要说明的是,上述实施例中所述的模块或部件可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个专用集成电路(application specificintegrated circuit,ASIC),或,一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(central processing unit,CPU)或其它可以调用程序代码的处理器如控制器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,SOC)的形式实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk (SSD))等。
本文中的术语“多个”是指两个或两个以上。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系;在公式中,字符“/”,表示前后关联对象是一种“相除”的关系。另外,需要理解的是,在本申请的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
可以理解的是,在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本申请的实施例的范围。
可以理解的是,在本申请的实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请的实施例的实施过程构成任何限定。
Claims (14)
1.一种语音交互方法,其特征在于,包括:
获取用户输入的关键词;
根据所述关键词,生成第一语音集合和第二语音集合,所述第一语音集合中的第一语音包括所述关键词,所述第二语音集合中的第二语音不包括所述关键词;
将所述第一语音输入至语音识别模型,得到所述第一语音中包括所述关键词的第一置信度,以及将所述第二语音输入至语音识别模型,得到所述第二语音中包括所述关键词的第二置信度;
根据所述第一置信度和所述第二置信度,确定所述关键词的置信度阈值。
2.根据权利要求1所述的方法,其特征在于,所述确定所述关键词的置信度阈值之后,还包括:
接收语音;
将所述语音输入至所述语音识别模型,得到所述语音中包括所述关键词的置信度;
响应于所述置信度大于或等于所述关键词的置信度阈值,执行响应于所述关键词的操作。
3.根据权利要求1所述的方法,其特征在于,所述根据所述关键词,生成第一语音集合和第二语音集合,包括:
根据所述关键词,获取所述关键词的发音信息;
根据所述发音信息,生成不同用户的不同风格的包括有所述关键词的语音,以及不同用户的不同风格的不包括有所述关键词的语音,所述第一语音集合包括:所述不同用户的不同风格的包括有所述关键词的语音,所述第二语音集合包括:所述不同用户的不同风格的不包括有所述关键词的语音。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述根据所述第一置信度和所述第二置信度,确定所述关键词的置信度阈值,包括:
根据第一预设通过率,以及所述第一置信度,确定所述关键词的置信度阈值,所述第一预设通过率用于表征:所述第一语音集合中的第一语音被识别出包括所述关键词的通过率。
5.根据权利要求4所述的方法,其特征在于,所述确定所述关键词的置信度阈值之后,还包括:
获取所述第一语音中包括所述关键词中每个字的第一子置信度;
根据所述第一预设通过率,以及多个第一子置信度,调整所述关键词的置信度阈值。
6.根据权利要求5所述的方法,其特征在于,所述调整所述关键词的置信度阈值,包括:
根据所述第一预设通过率,确定所述第二语音集合中的第二语音被识别出包括所述关键词的第一数量;
根据所述第一预设通过率,确定所述第二语音集合中的第二语音被识别出包括所述关键词中的每个字的第二数量;
若存在第二数量小于所述第一数量,则根据小于所述第一数量的第二数量对应的第一子置信度,调整所述关键词的置信度阈值。
7.根据权利要求1-3中任一项所述的方法,其特征在于,所述根据所述第一置信度和所述第二置信度,确定所述关键词的置信度阈值,包括:
根据第二预设通过率,以及所述第二置信度,确定所述关键词的置信度阈值,所述第二预设通过率用于表征:所述第二语音集合中的第二语音被识别出包括所述关键词的通过率。
8.根据权利要求2所述的方法,其特征在于,所述获取用户输入的关键词之后,还包括:
获取所述用户输入的语音;
根据所述用户输入的语音,生成第三语音集合和第四语音集合,所述第三语音集合中的第三语音为所述用户的语音,所述第四语音集合中的第四语音为其他用户的语音;
将所述第三语音输入至声纹模型,得到所述第一语音为所述用户的语音的第三置信度,以及将所述第四语音输入至声纹模型,得到所述第四语音为所述用户的语音的第四置信度;
根据所述第三置信度和所述第四置信度,确定所述用户的声纹的置信度阈值。
9.根据权利要求8所述的方法,其特征在于,所述接收语音之后,还包括:
将所述语音输入至所述声纹模型,得到所述语音为所述用户的语音的置信度;
所述响应于所述置信度大于或等于所述关键词的置信度阈值,执行响应于所述关键词的操作,包括:
响应于所述语音中包括所述关键词的置信度大于或等于所述关键词的置信度阈值,以及所述语音为所述用户的语音的置信度大于或等于所述用户的声纹的置信度阈值,执行响应于所述关键词的操作。
10.根据权利要求8或9所述的方法,其特征在于,所述根据所述用户输入的语音,生成第三语音集合和第四语音集合,包括:
根据所述用户输入的语音,获取所述用户的语音模板;
根据所述用户的语音模板,生成所述第三语音集合;
根据所述其他用户的预设语音模板,生成所述第四语音集合。
11.根据权利要求8或9所述的方法,其特征在于,所述第三语音集合中的第三语音具体为:所述用户的不同风格的语音,所述第四语音集合中的第四语音具体为:所述其他用户的不同风格的语音。
12.根据权利要求8或9所述的方法,其特征在于,所述根据所述第三置信度和所述第四置信度,确定所述用户的声纹的置信度阈值,包括:
根据第三预设通过率,以及所述第三置信度,确定所述用户的声纹的置信度阈值,所述第三预设通过率用于表征:所述第三语音集合中第三语音被识别为所述用户的语音的通过率;或者,
根据第四预设通过率,以及所述第四置信度,确定所述用户的声纹的置信度阈值,所述第四预设通过率用于表征:所述第四语音集合中第四语音被识别为所述用户的语音的通过率。
13.一种电子设备,其特征在于,包括:处理器和存储器;
所述存储器存储计算机指令;
所述处理器执行所述存储器存储的计算机指令,使得所述处理器执行如权利要求1-12中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序或指令,当所述计算机程序或指令被运行时,实现如权利要求1-12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211043779.6A CN115116442B (zh) | 2022-08-30 | 2022-08-30 | 语音交互方法和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211043779.6A CN115116442B (zh) | 2022-08-30 | 2022-08-30 | 语音交互方法和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115116442A CN115116442A (zh) | 2022-09-27 |
CN115116442B true CN115116442B (zh) | 2023-01-10 |
Family
ID=83336069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211043779.6A Active CN115116442B (zh) | 2022-08-30 | 2022-08-30 | 语音交互方法和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115116442B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111192574A (zh) * | 2018-11-14 | 2020-05-22 | 奇酷互联网络科技(深圳)有限公司 | 智能语音交互方法、移动终端和计算机可读存储介质 |
CN111737411A (zh) * | 2020-05-20 | 2020-10-02 | 华为技术有限公司 | 人机对话中的响应方法、对话系统及存储介质 |
CN112071308A (zh) * | 2020-09-11 | 2020-12-11 | 中山大学 | 一种基于语音合成数据增强的唤醒词训练方法 |
CN113963688A (zh) * | 2021-12-23 | 2022-01-21 | 深圳市友杰智新科技有限公司 | 语音唤醒模型的训练方法、唤醒词的检测方法和相关设备 |
CN114078472A (zh) * | 2021-11-08 | 2022-02-22 | 北京核芯达科技有限公司 | 一种低误唤醒率的关键词计算模型的训练方法及装置 |
CN114267342A (zh) * | 2021-12-21 | 2022-04-01 | 北京百度网讯科技有限公司 | 识别模型的训练方法、识别方法、电子设备及存储介质 |
CN114299933A (zh) * | 2021-12-28 | 2022-04-08 | 北京声智科技有限公司 | 语音识别模型训练方法、装置、设备、存储介质及产品 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210050003A1 (en) * | 2019-08-15 | 2021-02-18 | Sameer Syed Zaheer | Custom Wake Phrase Training |
US11217245B2 (en) * | 2019-08-29 | 2022-01-04 | Sony Interactive Entertainment Inc. | Customizable keyword spotting system with keyword adaptation |
CN110718223B (zh) * | 2019-10-28 | 2021-02-12 | 百度在线网络技术(北京)有限公司 | 用于语音交互控制的方法、装置、设备和介质 |
-
2022
- 2022-08-30 CN CN202211043779.6A patent/CN115116442B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111192574A (zh) * | 2018-11-14 | 2020-05-22 | 奇酷互联网络科技(深圳)有限公司 | 智能语音交互方法、移动终端和计算机可读存储介质 |
CN111737411A (zh) * | 2020-05-20 | 2020-10-02 | 华为技术有限公司 | 人机对话中的响应方法、对话系统及存储介质 |
CN112071308A (zh) * | 2020-09-11 | 2020-12-11 | 中山大学 | 一种基于语音合成数据增强的唤醒词训练方法 |
CN114078472A (zh) * | 2021-11-08 | 2022-02-22 | 北京核芯达科技有限公司 | 一种低误唤醒率的关键词计算模型的训练方法及装置 |
CN114267342A (zh) * | 2021-12-21 | 2022-04-01 | 北京百度网讯科技有限公司 | 识别模型的训练方法、识别方法、电子设备及存储介质 |
CN113963688A (zh) * | 2021-12-23 | 2022-01-21 | 深圳市友杰智新科技有限公司 | 语音唤醒模型的训练方法、唤醒词的检测方法和相关设备 |
CN114299933A (zh) * | 2021-12-28 | 2022-04-08 | 北京声智科技有限公司 | 语音识别模型训练方法、装置、设备、存储介质及产品 |
Non-Patent Citations (2)
Title |
---|
NS-FDN: Near-Sensor Processing Architecture of Feature-Configurable Distributed Network for Beyond-Real-Time Always-on Keyword Spotting;Qin Li,et al.;《IEEE Transactions on Circuits and Systems I: Regular Papers 》;IEEE;20210224;第68卷(第5期);全文 * |
采用注意力机制和多任务训练的端到端无语音识别关键词检索系统;赵泽宇等;《信号处理》;中国知网;20200612;第36卷(第6期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115116442A (zh) | 2022-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108847241B (zh) | 将会议语音识别为文本的方法、电子设备及存储介质 | |
US11514886B2 (en) | Emotion classification information-based text-to-speech (TTS) method and apparatus | |
US11450313B2 (en) | Determining phonetic relationships | |
US9640175B2 (en) | Pronunciation learning from user correction | |
US9558741B2 (en) | Systems and methods for speech recognition | |
US11455989B2 (en) | Electronic apparatus for processing user utterance and controlling method thereof | |
US10332512B2 (en) | Negative n-gram biasing | |
CN109686383B (zh) | 一种语音分析方法、装置及存储介质 | |
CN108399914B (zh) | 一种语音识别的方法和装置 | |
US11676572B2 (en) | Instantaneous learning in text-to-speech during dialog | |
CN112735371B (zh) | 一种基于文本信息生成说话人视频的方法及装置 | |
US10866948B2 (en) | Address book management apparatus using speech recognition, vehicle, system and method thereof | |
JPWO2018043138A1 (ja) | 情報処理装置および情報処理方法、並びにプログラム | |
CN112908308B (zh) | 一种音频处理方法、装置、设备及介质 | |
US11615787B2 (en) | Dialogue system and method of controlling the same | |
US20230298564A1 (en) | Speech synthesis method and apparatus, device, and storage medium | |
Biswas et al. | Speech Recognition using Weighted Finite-State Transducers | |
CN114783405B (zh) | 一种语音合成方法、装置、电子设备及存储介质 | |
CN111145748A (zh) | 音频识别置信度确定方法、装置、设备及存储介质 | |
CN115116442B (zh) | 语音交互方法和电子设备 | |
WO2017159207A1 (ja) | 処理実行装置、処理実行装置の制御方法、および制御プログラム | |
CN115700871A (zh) | 模型训练和语音合成方法、装置、设备及介质 | |
CN110895938B (zh) | 语音校正系统及语音校正方法 | |
CN111048098A (zh) | 语音校正系统及语音校正方法 | |
KR102392992B1 (ko) | 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |