CN109961791B - 一种语音信息处理方法、装置及电子设备 - Google Patents
一种语音信息处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN109961791B CN109961791B CN201711404260.5A CN201711404260A CN109961791B CN 109961791 B CN109961791 B CN 109961791B CN 201711404260 A CN201711404260 A CN 201711404260A CN 109961791 B CN109961791 B CN 109961791B
- Authority
- CN
- China
- Prior art keywords
- character string
- word
- words
- input
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 14
- 238000003672 processing method Methods 0.000 title abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 54
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 15
- 238000010276 construction Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 2
- 238000011022 operating instruction Methods 0.000 claims 1
- 238000004891 communication Methods 0.000 description 11
- 238000005457 optimization Methods 0.000 description 11
- 238000009835 boiling Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语音信息处理方法、装置及电子设备。该语音信息处理方法包括:获取语音信息;对语音信息进行语音识别,获得语音信息对应的语言字符串;根据输入法中用户的个性化字符数据库,对语言字符串进行优化获得优化后的语言字符串。在上述技术方案中,通过用户的个性化字符数据库来对语音识别的结果进行优化,使的优化后的结果能够更为准确的反映用户的个性化字符输入情况,从而提高语音识别的准确率。
Description
技术领域
本发明涉及语音技术领域,特别涉及一种语音信息处理方法、装置及电子设备。
背景技术
随着科学技术的不断发展,语音技术得到了飞速的发展,语音识别的准确率不断提高,在人机交互领域的应用正在逐步扩大。现如今,语音识别已经能够很好的识别用户输入的语音信息并将其转换为语音文字字符,实现语音输入文字。
现如今,语音识别的准确率已经能够达到90%以上,语音识别的数据库已经相当的完善,若要进一步提高语音识别的准确率,亟需一种新的方法从其它方面来入手来优化语音识别的结果。
发明内容
本发明实施例提供一种语音信息处理方法、装置及电子设备,用于提高语音识别的准确率。
第一方面,本发明实施例提供一种语音信息处理方法,该方法包括:
获取语音信息;
对所述语音信息进行语音识别,获得所述语音信息对应的语言字符串;
根据输入法中用户的个性化字符数据库,对所述语言字符串进行优化获得优化后的语言字符串。
可选的,所述方法包括:获取用户在预设应用程序中输入的人名和/地名;根据所述人名和/或地名,建立或更新所述个性化字符数据库。
可选的,所述方法包括:获取所述用户通过输入法上屏的模糊音词,和/或,获取所述用户在预设时间周期内输入次数大于第一设定阈值的高频词;根据所述模糊音词和或所述高频词,建立或更新所述个性化字符数据库。
可选的,所述方法包括:获取用户连续输入的N个输入词,N为大于等于二的整数;判断所述N个输入词的输入次数是否大于第二设定阈值;若是,将所述N个输入词作为N元关系词,并根据所述N元关系词建立或更新所述个性化字符数据库。
可选的,根据输入法中用户的个性化字符数据库,对所述语言字符串进行优化获得优化后的语言字符串,包括:
对所述语言字符串进行分词;
判断所述个性化字符数据库中是否存在与分词结果中任一分词读音相同或相近的目标词;
若存在所述目标词,将所述语言字符串中对应分词替换为所述目标词获得优化后的语言字符串。
可选的,若存在所述目标词,将所述语言字符串中对应分词替换为所述目标词获得优化后的语言字符串,包括:
若存在所述目标词,判断所述目标词与所述语言字符串中待替换分词的相邻分词之间是否存在N元关系,其中,待替换分词为所述语言字符串中读音与所述目标词相同或相近的分词;
若存在所述N元关系,将所述语言字符串中所述待替换分词替换为所述目标词获得优化后的语言字符串。
可选的,若存在所述目标词,将所述语言字符串中对应分词替换为所述目标词获得优化后的语言字符串,包括:
若存在所述目标词,判断所述目标词是否为人名、地名或者模糊音词;
若是,将所述语言字符串中对应分词替换为所述目标词获得优化后的语言字符串。
第二方面,本发明实施例提供一种语音信息处理装置,包括:
获取单元,获取语音信息;
识别单元,对所述语音信息进行语音识别,获得所述语音信息对应的语言字符串;
优化单元,用于根据输入法中用户的个性化字符数据库,对所述语言字符串进行优化获得优化后的语言字符串。
可选的,所述装置还包括:构建单元,用于获取用户在预设应用程序中输入的人名和/地名;根据所述人名和/或地名,建立或更新所述个性化字符数据库。
可选的,所述装置还包括:构建单元,用于获取所述用户通过输入法上屏的模糊音词,和/或,获取所述用户在预设时间周期内输入次数大于第一设定阈值的高频词;根据所述模糊音词和或所述高频词,建立或更新所述个性化字符数据库。
可选的,所述装置还包括:构建单元,用于获取用户连续输入的N个输入词,N为大于等于二的整数;判断所述N个输入词的输入次数是否大于第二设定阈值;若是,将所述N个输入词作为N元关系词,并根据所述N元关系词建立或更新所述个性化字符数据库。
可选的,所述优化单元,包括:分词模块,用于对所述语言字符串进行分词;判断模块,用于判断所述个性化字符数据库中是否存在与分词结果中任一分词读音相同或相近的目标词;替换模块,用于若存在所述目标词,将所述语言字符串中对应分词替换为所述目标词获得优化后的语言字符串。
可选的,所述替换模块,用于:若存在所述目标词,判断所述目标词与所述语言字符串中待替换分词的相邻分词之间是否存在N元关系,其中,待替换分词为所述语言字符串中读音与所述目标词相同或相近的分词;若存在所述N元关系,将所述语言字符串中所述待替换分词替换为所述目标词获得优化后的语言字符串。
可选的,所述替换模块,用于:若存在所述目标词,判断所述目标词是否为人名、地名或者模糊音词;若是,将所述语言字符串中对应分词替换为所述目标词获得优化后的语言字符串。
第三方面,本发明实施例提供一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取语音信息;
对所述语音信息进行语音识别,获得所述语音信息对应的语言字符串;
根据输入法中用户的个性化字符数据库,对所述语言字符串进行优化获得优化后的语言字符串。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取语音信息;
对所述语音信息进行语音识别,获得所述语音信息对应的语言字符串;
根据输入法中用户的个性化字符数据库,对所述语言字符串进行优化获得优化后的语言字符串。
本申请实施例中的上述一个或多个技术方案,至少具有如下技术效果:
本申请实施例提供一种语音信息处理方法,对语音识别获得的语言字符串,根据输入法中用户的个性化字符数据库来对其进行优化,使得优化后的语言字符串能更准确的反映用户的个性化字符输入情况,从而进一步提高语音识别的准确率。
附图说明
图1为本申请实施例提供的一种语音信息处理方法的流程示意图;
图2为本申请实施例提供的一种语音信息处理装置的方框图;
图3为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
在本申请实施例提供的技术方案中,通过提供一种语音信息处理方法,根据用户的个性化字符数据库,来对语音识别的结果进行优化,使的优化后的结果能够更为准确的反映用户的个性化字符输入情况,从而进一步提高语音识别的准确率。
下面结合附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。
实施例
请参考图1,本申请实施例提供一种语音信息处理方法,该方法包括:
S110:获取语音信息;
S120:对所述语音信息进行语音识别,获得所述语音信息对应的语言字符串;
S130:根据输入法中用户的个性化字符数据库,对所述语言字符串进行优化获得优化后的语言字符串。
具体实施过程中,当用户通过语音输入文字的时,可以执行S110获取电子设备的语音采集装置如麦克风采集到的语音信息。当用户对应用程序中的语音信息进行文字转换操作时,也可以执行S110获得用户请求转换的语音信息,本申请实施例并不限定语音信息的获取方式。
在S110之后,执行S120对获取到的语音信息进行语音识别。具体可以采用隐马尔可夫模型、矢量量化、人工神经网络等方法进行语音识别,识别获得语音信息对应的语言字符串。对于识别获得的语言字符串进一步执行S130,根据输入法中用户的个性化字符数据库对其进行优化。
具体的,本申请实施例为了对语言识别结果进行优化,通过输入法针对用户的个性化输入情况构建个性化字符数据库。该个性化字符数据库用于存储用户输入过程中的特征字符数据。其中,用户的特征字符数据包括:用户的模糊音词、人名、地名、N元关系词、自定义词、高频词等。模糊音词为用户习惯性错读和/或错输对应的上屏词,例如:假设用户为一个“H”、“F”不分的模糊音使用者,在用户输入“feihuang”时,选择上屏的是模糊音“huihuang”对应的“辉煌”,那么“辉煌”则为该用户的模糊音词。N元关系词为关联出现的两个或多个词,例如:用户经常输入“我喜欢关关”,即“喜欢”与“关关”经常关联出现,那么“喜欢”+“关关”具有二元关系,若“喜欢关关的恬静”经常关联出现,那么“喜欢”+“关关”+“恬静”具有三元关系。
用户的个性化字符数据库可以通过如下一种或多种方式来建立:
方式一、获取用户在预设应用程序中输入的人名和/地名;根据获得的人名和/或地名,建立或更新用户的个性化字符数据库。其中,预设应用程序包括:地图类应用程序、通讯录、备忘录、即时通信软件等。地图类应用程序包括地图导航软件、打车软件、骑行软件、旅游软件等。人名、地名常常会出现特殊的编排语音识别获得结果往往不准确,例如:语音“liming”语音识别获得的语言字符串往往为“李明”,但用户实际想要输入的是通信录中的“立明”。将用户通讯录、地图类应用程序、即时通信软件中输入过的人名和/地名写入用户的个性化字符数据库,根据该个性化数据库来优化语音识别结果,能够解决现有技术中语音识别对人名或地名识别准确率较低的技术问题。
方式二、获取用户通过输入法上屏(即确定输入)的模糊音词,和/或,获取用户在预设时间周期内输入次数大于第一设定阈值的高频词;根据获得的模糊音词和或高频词,建立或更新用户的个性化字符数据库。针对模糊音词,在将模糊音词写入用户的个性化字符数据库中时,还将模糊音词对应的输入读音写入个性化字符数据库中。例如:用户输入“shengfen”,由于该用户为“eng”和“en”的模糊音使用者,输入法对应提供的候选项包括“省份”、“身份”,用户最终上屏的词为“身份”,那么将“身份”作为该用户的模糊音词、“shengfen”作为“身份”的输入读音一并写入用户的个性化字符数据库中。通过建立包含模糊音词的用户个性化字符数据库,能够大大提高发音不准确、不确切的语音信息的识别准确率,解决现有技术中对模糊音识别不准确的技术问题。
方式三、获取用户连续输入的N个输入词,N为大于等于二的整数;判断获得的这N个输入词的输入次数是否大于等于第二设定阈值;若这N个输入词的输入次数大于等于第二设定阈值,认为这N个输入词之间具有N元关系,将这N个输入词作为N元关系词,并根据该N元关系词建立或更新用户的个性化字符数据库;反之,则不认为这N个输入词之间具有N原关系。例如:假设用户连续输入的N个输入词“喜欢”、“费腾”、“的声音”的输入次数(即N个词联系出现的次数)大于第二设定阈值,那么认为“喜欢”+“费腾”+“的声音”具有三元关系,将其写入用户的个性化字符数据库中。
在建立个性化字符数据库时,可以为每个用户建立一个用户ID,不断的学习每个用户ID对应用户的个性化输入行为,以不断的更新每个用户的个性化字符数据库中的数据。在对语音识别结果进行优化时,获得该语音识别对象即被识别的语音信息对应的用户ID,进而获得该用户ID对应的个性化字符数据库,以根据自身的个性化字符数据库来优化其语音信息的语音识别结果。
在通过上述一种或多种方式建立个性化字符数据库时,可以将其存储在客户端,也可以将其存储在云端,本申请实施例并不限制其存储位置。基于建立好的个性化字符数据库,在S120之后继续执行S130。S130可以获得S130对应的用户ID,从客户端或云端获得该用户ID对应的个性化字符数据库,根据该个性化字符数据库对识别获得的语言字符串进行优化,获得优化后的语言字符串。
根据个性化字符数据库对语言字符串进行优化时,具体可以先对语言字符串进行分词;然后,判断个性化字符数据库中是否存在与分词结果中任一分词读音相同或相近的目标词;若存在该目标词,将语言字符串中对应分词替换为目标词获得优化后的语言字符串;反之,若不存在该目标词则放弃本次优化。其中,语音识别时识别率低于预设识别阈值两个读音可以认为是读音相近,例如:假设语音识别时“l”和“n”的识别率低于预设识别阈值,那么“l”和“n”读音相近;和/或,用户的模糊音认为是读音相近,例如:假设用户的模糊音为“in”和“ing”,那么认为“in”和“ing”读音相近。
当个性化字符数据库中存在与语言字符串中分词的读音相同或相近的目标词时,可以直接用该目标词替换语言字符串中读音与目标词相同或相近的待替换分词。例如:假设语音识别获得的语言字符串为“我喜欢沸腾的声音”,对“我喜欢沸腾的声音”进行分词,获得分词“我”、“喜欢”、“沸腾”、“的声音”,然后将各个分词在输入法中的用户个性化字符数据库中进行查找判断是否存在读音相同或相似的目标词,判断出存在与“沸腾”读音相同的目标词“费腾”,那么将“沸腾”替换为“费腾”获得优化后的语言字符串“我喜欢费腾的声音”。
当个性化字符数据库中存在与语言字符串中分词的读音相同或相近的目标词时,也可以进一步判断该目标词是否满足替换策略,若满足替换策略则执行替换操作,否则放弃替换操作。该替换策略包括:目标词满足N元关系;目标词为预设类型如人名、地面、模糊音、用户自定义词等词;目标词与当前应用环境相匹配等。
具体的,判断目标词与语言字符串中待替换分词的相邻分词之间是否存在N元关系;若存在N元关系,将语言字符串中待替换分词替换为目标词获得优化后的语言字符串;若不存在N元关系,继续其它替换策略的判断或者放弃本次优化操作。例如:在判断出个性化字符数据库中存在与语言字符串中的分词“沸腾”读音相同的目标词“费腾”时,进一步判断“费腾”与“沸腾”的相邻分词“喜欢”和/或“的声音”之间是否具有N元关系,根据个性化字符数据库中的N元关系词判断出“喜欢”+“费腾”+“的声音”具有三元关系,即目标词“费腾”满足替换策略,那么将“沸腾”替换为“费腾”。该策略适可以针对于目标词为个性化字符数据库中的N元关系词和高频词的进行进一步判断,以保证优化的准确性。
针对人名、地名、模糊音词等往往是变化率最小的词汇,但也不易被识别。在判断出个性化数据库中存在目标词时,可以判断该目标词是否为人名、地名、模糊音词等预设类型的词汇;若是,将待替换分词替换为目标词,反之,继续进行其他替换策略的判断或者放弃本次优化操作。例如:假设“费腾”为用户通讯录中的联系人的人名,在判断出个性化字符数据库中存在与语言字符串中的分词“沸腾”读音相同的目标词“费腾”时,进一步判断出“费腾”为人名,那么将“沸腾”替换为“费腾”。
是否进行替换,还可以判断目标词与当前的应用环境是否匹配,若匹配则将待替换分词替换为目标词,反之,则继续进行其他替换策略的判断或者放弃本次优化操作。例如:假设目标词为“费翔”,当前应用程序为“XX音乐”对应的应用环境为“音乐”,目标词“费翔”的标签包括“音乐”,判断出“费翔”与当前应用环境匹配,那么将待替换分词替换为目标词“费翔”。反之,若当前应用程序为某游戏软件对应的应用环境与目标词“费翔”不匹配,那么则放弃将待替换分词替换为目标词。
具体实施过程中,本说明书实施例还在S130之后显示优化后的语言字符串。在显示优化后的元字符串的过程中,还可以显示优化信息,以提示用户本识别结果已被优化,允许用户执行放弃优化的操作。若用户放弃本次优化,获取被放弃的目标词,删除用户个性化字符数据库中的目标词,以更新用户的个性化字符数据库。通过输入法中用户的个性化字符数据库的不断更新,使得根据个性化字符数据库对语音识别结果的优化更准确,更能贴近用户的个性化字符输入情况,从而进一步提高语音识别的准确率。
针对上述实施例提供一种语音信息处理方法,本申请实施例还对应提供一种语音信息处理装置,请参考图2,该装置包括:
获取单元21,获取语音信息;
识别单元22,对所述语音信息进行语音识别,获得所述语音信息对应的语言字符串;
优化单元23,用于根据输入法中用户的个性化字符数据库,对所述语言字符串进行优化获得优化后的语言字符串。
作为一种可选的实施方式,所述装置还包括:构建单元24。构建单元24用于通过如下一种或多种方式来建立、更新用户的个性化字符数据库:
一、获取用户在预设应用程序中输入的人名和/地名;根据所述人名和/或地名,建立或更新所述个性化字符数据库。
二、获取所述用户通过输入法上屏的模糊音词,和/或,获取所述用户在预设时间周期内输入次数大于第一设定阈值的高频词;根据所述模糊音词和或所述高频词,建立或更新所述个性化字符数据库。
三、获取用户连续输入的N个输入词,N为大于等于二的整数;判断所述N个输入词的输入次数是否大于第二设定阈值;若是,将所述N个输入词作为N元关系词,并根据所述N元关系词建立或更新所述个性化字符数据库。
作为一种可选的实施方式,所述优化单元23,包括:分词模块、判断模块及替换模块。分词模块用于:对所述语言字符串进行分词;判断模块用于:判断所述个性化字符数据库中是否存在与分词结果中任一分词读音相同或相近的目标词;替换模块用于:若存在所述目标词,将所述语言字符串中对应分词替换为所述目标词获得优化后的语言字符串。
作为一种可选的实施方式,所述替换模块可以用于:若存在所述目标词,判断所述目标词与所述语言字符串中待替换分词的相邻分词之间是否存在N元关系,其中,待替换分词为所述语言字符串中读音与所述目标词相同或相近的分词;若存在所述N元关系,将所述语言字符串中所述待替换分词替换为所述目标词获得优化后的语言字符串。所述替换模块也可以用于:若存在所述目标词,判断所述目标词是否为人名、地名或者模糊音词;若是,将所述语言字符串中对应分词替换为所述目标词获得优化后的语言字符串。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图3是根据一示例性实施例示出的一种用于实现语音信息处理方法的电子设备800的框图。例如,电子设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/展现(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述电子设备800和用户之间的提供一个展现接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为展现和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于展现音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种语音信息处理方法,所述方法包括:获取语音信息;对所述语音信息进行语音识别,获得所述语音信息对应的语言字符串;根据输入法中用户的个性化字符数据库,对所述语言字符串进行优化获得优化后的语言字符串。
图3是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入展现接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音信息处理方法,其特征在于,所述方法包括:
获取语音信息;
对所述语音信息进行语音识别,获得所述语音信息对应的语言字符串;
根据输入法中用户的个性化字符数据库,对所述语言字符串进行优化获得优化后的语言字符串,包括:
对所述语言字符串进行分词;判断所述个性化字符数据库中是否存在与分词结果中任一分词读音相同或相近的目标词;若存在所述目标词,将所述语言字符串中对应分词替换为所述目标词获得优化后的语言字符串,包括:若存在所述目标词,判断所述目标词与所述语言字符串中待替换分词的相邻分词之间是否存在N元关系,其中,待替换分词为所述语言字符串中读音与所述目标词相同或相近的分词;若存在所述N元关系,将所述语言字符串中所述待替换分词替换为所述目标词获得优化后的语言字符串;
获取用户连续输入的N个输入词,N为大于等于二的整数;
判断所述N个输入词的输入次数是否大于第二设定阈值;
若是,将所述N个输入词作为N元关系词,并根据所述N元关系词建立或更新所述个性化字符数据库。
2.如权利要求1所述的方法,其特征在于,所述方法包括:
获取用户在预设应用程序中输入的人名和/地名;
根据所述人名和/或地名,建立或更新所述个性化字符数据库。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述用户通过输入法上屏的模糊音词,和/或,获取所述用户在预设时间周期内输入次数大于第一设定阈值的高频词;
根据所述模糊音词和或所述高频词,建立或更新所述个性化字符数据库。
4.如权利要求1所述的方法,其特征在于,若存在所述目标词,将所述语言字符串中对应分词替换为所述目标词获得优化后的语言字符串,包括:
若存在所述目标词,判断所述目标词是否为人名、地名或者模糊音词;
若是,将所述语言字符串中对应分词替换为所述目标词获得优化后的语言字符串。
5.一种语音信息处理装置,其特征在于,所述装置包括:
获取单元,获取语音信息;
识别单元,对所述语音信息进行语音识别,获得所述语音信息对应的语言字符串;
优化单元,用于根据输入法中用户的个性化字符数据库,对所述语言字符串进行优化获得优化后的语言字符串,所述优化单元包括:
分词模块,用于对所述语言字符串进行分词;判断模块,用于判断所述个性化字符数据库中是否存在与分词结果中任一分词读音相同或相近的目标词;替换模块,用于若存在所述目标词,将所述语言字符串中对应分词替换为所述目标词获得优化后的语言字符串,包括:若存在所述目标词,判断所述目标词与所述语言字符串中待替换分词的相邻分词之间是否存在N元关系,其中,待替换分词为所述语言字符串中读音与所述目标词相同或相近的分词;若存在所述N元关系,将所述语言字符串中所述待替换分词替换为所述目标词获得优化后的语言字符串;
构建单元,用于获取用户连续输入的N个输入词,N为大于等于二的整数;判断所述N个输入词的输入次数是否大于第二设定阈值;若是,将所述N个输入词作为N元关系词,并根据所述N元关系词建立或更新所述个性化字符数据库。
6.如权利要求5所述的装置,其特征在于,所述构建单元还用于:
获取用户在预设应用程序中输入的人名和/地名;根据所述人名和/或地名,建立或更新所述个性化字符数据库。
7.如权利要求5所述的装置,其特征在于,所述构建单元还用于:
获取所述用户通过输入法上屏的模糊音词,和/或,获取所述用户在预设时间周期内输入次数大于第一设定阈值的高频词;根据所述模糊音词和或所述高频词,建立或更新所述个性化字符数据库。
8.如权利要求5所述的装置,其特征在于,所述替换模块,用于:
若存在所述目标词,判断所述目标词是否为人名、地名或者模糊音词;
若是,将所述语言字符串中对应分词替换为所述目标词获得优化后的语言字符串。
9.一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行如权利要求1~4任一所述方法对应的操作指令。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~4任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711404260.5A CN109961791B (zh) | 2017-12-22 | 2017-12-22 | 一种语音信息处理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711404260.5A CN109961791B (zh) | 2017-12-22 | 2017-12-22 | 一种语音信息处理方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109961791A CN109961791A (zh) | 2019-07-02 |
CN109961791B true CN109961791B (zh) | 2021-10-22 |
Family
ID=67019207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711404260.5A Active CN109961791B (zh) | 2017-12-22 | 2017-12-22 | 一种语音信息处理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109961791B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111564157A (zh) * | 2020-03-18 | 2020-08-21 | 浙江省北大信息技术高等研究院 | 会议记录优化方法、装置、设备及存储介质 |
CN113515618A (zh) * | 2020-04-09 | 2021-10-19 | 北京搜狗科技发展有限公司 | 语音处理方法、装置和介质 |
CN113571055A (zh) * | 2020-04-29 | 2021-10-29 | 顾家家居股份有限公司 | 一种智能语音沙发控制系统 |
CN111627438A (zh) * | 2020-05-21 | 2020-09-04 | 四川虹美智能科技有限公司 | 语音识别方法及装置 |
CN111737541B (zh) * | 2020-06-30 | 2021-10-15 | 湖北亿咖通科技有限公司 | 一种支持多语言的语义识别评估方法 |
CN112908337B (zh) * | 2021-01-31 | 2023-05-26 | 云知声智能科技股份有限公司 | 语音识别文本的展示方法、装置、设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101013443A (zh) * | 2007-02-13 | 2007-08-08 | 北京搜狗科技发展有限公司 | 一种智能组词输入的方法和一种输入法系统及其更新方法 |
CN101847159A (zh) * | 2010-05-11 | 2010-09-29 | 中兴通讯股份有限公司 | 终端设备及其词库更新的方法 |
CN102270048A (zh) * | 2010-06-03 | 2011-12-07 | 北京搜狗科技发展有限公司 | 一种名词输入的方法及系统 |
CN103399890A (zh) * | 2013-07-22 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 在输入法客户端收集字词的方法和设备 |
CN103699530A (zh) * | 2012-09-27 | 2014-04-02 | 百度在线网络技术(北京)有限公司 | 根据语音输入信息在目标应用中输入文本的方法与设备 |
WO2014176959A1 (zh) * | 2013-04-28 | 2014-11-06 | 百度在线网络技术(北京)有限公司 | 一种基于本地词库提供输入候选词条的方法与设备 |
CN106527756A (zh) * | 2016-10-26 | 2017-03-22 | 长沙军鸽软件有限公司 | 一种对输入信息进行智能纠错的方法及装置 |
CN107169067A (zh) * | 2017-05-05 | 2017-09-15 | 上海明数数字出版科技有限公司 | 一种利用语音查询汉字的字典检索方法及系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101290632B (zh) * | 2008-05-30 | 2011-09-14 | 北京搜狗科技发展有限公司 | 一种用户词参与智能组词输入的方法及一种输入法系统 |
US10522133B2 (en) * | 2011-05-23 | 2019-12-31 | Nuance Communications, Inc. | Methods and apparatus for correcting recognition errors |
CN103578469A (zh) * | 2012-08-08 | 2014-02-12 | 百度在线网络技术(北京)有限公司 | 一种展示语音识别结果的方法及装置 |
KR102332729B1 (ko) * | 2014-07-28 | 2021-11-30 | 삼성전자주식회사 | 발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치 |
CN105632499B (zh) * | 2014-10-31 | 2019-12-10 | 株式会社东芝 | 用于优化语音识别结果的方法和装置 |
CN105206274A (zh) * | 2015-10-30 | 2015-12-30 | 北京奇艺世纪科技有限公司 | 一种语音识别的后处理方法及装置和语音识别系统 |
CN105893414A (zh) * | 2015-11-26 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | 筛选发音词典有效词条的方法及装置 |
CN106527757A (zh) * | 2016-10-28 | 2017-03-22 | 上海智臻智能网络科技股份有限公司 | 一种输入纠错方法及装置 |
CN107451121A (zh) * | 2017-08-03 | 2017-12-08 | 京东方科技集团股份有限公司 | 一种语音识别方法及其装置 |
-
2017
- 2017-12-22 CN CN201711404260.5A patent/CN109961791B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101013443A (zh) * | 2007-02-13 | 2007-08-08 | 北京搜狗科技发展有限公司 | 一种智能组词输入的方法和一种输入法系统及其更新方法 |
CN101847159A (zh) * | 2010-05-11 | 2010-09-29 | 中兴通讯股份有限公司 | 终端设备及其词库更新的方法 |
CN102270048A (zh) * | 2010-06-03 | 2011-12-07 | 北京搜狗科技发展有限公司 | 一种名词输入的方法及系统 |
CN103699530A (zh) * | 2012-09-27 | 2014-04-02 | 百度在线网络技术(北京)有限公司 | 根据语音输入信息在目标应用中输入文本的方法与设备 |
WO2014176959A1 (zh) * | 2013-04-28 | 2014-11-06 | 百度在线网络技术(北京)有限公司 | 一种基于本地词库提供输入候选词条的方法与设备 |
CN103399890A (zh) * | 2013-07-22 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 在输入法客户端收集字词的方法和设备 |
CN106527756A (zh) * | 2016-10-26 | 2017-03-22 | 长沙军鸽软件有限公司 | 一种对输入信息进行智能纠错的方法及装置 |
CN107169067A (zh) * | 2017-05-05 | 2017-09-15 | 上海明数数字出版科技有限公司 | 一种利用语音查询汉字的字典检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109961791A (zh) | 2019-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109961791B (zh) | 一种语音信息处理方法、装置及电子设备 | |
CN105489220B (zh) | 语音识别方法及装置 | |
CN109243430B (zh) | 一种语音识别方法及装置 | |
CN111128183B (zh) | 语音识别方法、装置和介质 | |
CN111210844B (zh) | 语音情感识别模型的确定方法、装置、设备及存储介质 | |
US20170140254A1 (en) | Method and device for adding font | |
CN110764627B (zh) | 一种输入方法、装置和电子设备 | |
CN112651235A (zh) | 一种诗歌生成的方法及相关装置 | |
CN112331194A (zh) | 一种输入方法、装置和电子设备 | |
CN109725736B (zh) | 一种候选排序方法、装置及电子设备 | |
CN109901726B (zh) | 一种候选词生成方法、装置及用于候选词生成的装置 | |
CN109799916B (zh) | 一种候选项联想方法和装置 | |
CN112130839A (zh) | 一种构建数据库、语音编程的方法及相关装置 | |
CN109144286B (zh) | 一种输入方法及装置 | |
CN110908523A (zh) | 一种输入方法及装置 | |
CN110968246A (zh) | 中文智能手写输入识别方法及装置 | |
CN114550691A (zh) | 一种多音字消歧方法、装置、电子设备及可读存储介质 | |
CN110858099B (zh) | 候选词生成方法及装置 | |
CN112363631A (zh) | 一种输入方法、装置及用于输入的装置 | |
CN112818841A (zh) | 一种识别用户情绪的方法及相关装置 | |
CN113946228A (zh) | 语句推荐方法、装置、电子设备和可读存储介质 | |
CN108241438B (zh) | 一种输入方法、装置和用于输入的装置 | |
CN112242142B (zh) | 一种语音识别输入的方法及相关装置 | |
CN112083811B (zh) | 一种候选项展示方法和装置 | |
CN113127613B (zh) | 聊天信息处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |