CN104731548B - 辨识网络产生装置及其方法 - Google Patents
辨识网络产生装置及其方法 Download PDFInfo
- Publication number
- CN104731548B CN104731548B CN201310746425.2A CN201310746425A CN104731548B CN 104731548 B CN104731548 B CN 104731548B CN 201310746425 A CN201310746425 A CN 201310746425A CN 104731548 B CN104731548 B CN 104731548B
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- identification
- motility model
- motility
- electronic installation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title description 6
- 230000002093 peripheral effect Effects 0.000 claims abstract description 41
- 230000004899 motility Effects 0.000 claims description 118
- 238000009434 installation Methods 0.000 claims description 60
- 230000006870 function Effects 0.000 claims description 37
- 230000005540 biological transmission Effects 0.000 claims description 8
- 238000004519 manufacturing process Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 11
- 239000013598 vector Substances 0.000 description 33
- 230000006399 behavior Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明揭露了一种辨识网络产生装置。该辨识网络产生装置包括操作纪录存储器、活动模型建构器、活动预测器以及权重调整器。操作纪录存储器存储使用电子装置的多笔操作纪录,其中每一操作纪录包含执行过的操作内容以及执行操作内容时侦知的装置周边信息。活动模型建构器依据装置周边信息,将这些操作纪录分群为多个活动模型。活动预测器依据目前所侦知的装置周边信息,由这些活动模型中选出选用活动模型。权重调整器对选用活动模型中的所有操作内容中的每一辨识词汇进行权重调整。
Description
技术领域
本发明是有关于一种辨识网络产生装置,特别是有关于提高语音识别成功率的辨识网络产生装置。
背景技术
现今,各种智能型电子装置不断推陈出新。用户生活中也越来越依赖智能型电子装置提供的功能;然而,使用者往往会因个人操作习惯或喜好不同,在使用智能型电子装置中的应用程序会有不同的操作行为。例如,用户偏好收听装置内存储2000首歌的其中几首;或是使用者常联络的朋友只有几位,但其通讯簿却有500位联络人。因此,如何依据电子装置中所有操作功能的使用频率以及电子装置被使用时纪录下的周边信息,判断出用户在智能型电子装置中可能使用的功能成为一需要解决的问题。
发明内容
本发明的一实施例提供一种辨识网络产生装置。该辨识网络产生装置设置于一电子装置上,包括一操作纪录存储器、一活动模型建构器、一活动预测器以及一权重调整器。该操作纪录存储器存储该电子装置的多笔操作纪录,其中每一操作纪录包含在该电子装置执行过的一操作内容,与对应该操作内容执行时该电子装置所侦知的一装置周边信息。该活动模型建构器耦接该操作纪录存储器,依据该多笔操作纪录的所有装置周边信息,将该多笔操作纪录分群为多个活动模型。该活动预测器依据该电子装置目前所侦知的一目前装置周边信息与每一该活动模型的近似度,由该多个活动模型中选出至少一选用活动模型。该权重调整器对至少一选用活动模型中的所有操作内容对应的多个辨识词汇进行权重调整。
本发明的一实施例提供一种辨识网络产生方法,包括以下步骤:存储使用一电子装置的多笔操作纪录,其中每一操作纪录包含在该电子装置执行过的一操作内容,与对应该操作内容执行时该电子装置所侦知的一装置周边信息;依据该多笔操作纪录的所有装置周边信息,将这些操作纪录分群为多个活动模型;依据该电子装置目前所侦知的一目前装置周边信息与每一活动模型的近似度,由该多个活动模型中选出至少一选用活动模型;以及对至少一选用活动模型中的所有操作内容对应的多个辨识词汇进行权重调整。
本发明的一实施例提供一种语音识别装置。语音识别装置,设于一电子装置上,包括一存储单元、一辨识器、以及一处理器。存储单元,存储该电子装置的多笔操作纪录,其中每一操作纪录包含在该电子装置执行过的一操作内容,以及对应该操作内容执行时该电子装置所侦知的一装置周边信息;处理器,耦接该存储单元,该处理器用以加载及执行一辨识网络产生程序;处理器执行该辨识网络产生程序,依据该多笔操作纪录的所有装置周边信息,将该多笔操作纪录分群为多个活动模型,依据该电子装置目前所侦知的一目前装置周边信息与每一活动模型的近似度,由该多个活动模型中选出至少一选用活动模型,对该至少一选用活动模型中的所有该操作内容对应的多个辨识词汇进行权重调整,以及辨识器利用一权重调整信息辨识一语音输入,输出一语音识别结果。
附图说明
图1显示一电子装置10,其搭载有依据本发明的一实施例提出的一语音识别装置100。
图2显示活动模型建构器112在不同时间对多个特征向量的分群结果。
图3是以流程图举例说明权重调整器114对所有选用活动模型中的多个辨识词汇进行权重调整。
图4显示在辨识词汇分群、辨识词汇权重值以及辨识成功率彼此之间的关系图。
图5说明图1的语音识别装置100的另一实施方式。
【符号说明】
10~电子装置;
100~语音识别装置;
110~辨识网络产生装置;
111~操作纪录存储器;
112~活动模型建构器;
113~活动预测器;
114~权重调整器;
115~辨识器;
120~显示器;
50~电子装置;
500~语音识别装置;
501~处理器;
502~存储单元;
503~辨识器;
510~显示器。
具体实施方式
图1显示一电子装置10,搭载有依据本发明的一实施例提出的一语音识别装置100。电子装置10包括一语音识别装置100以及一显示器120。电子装置10依据所侦知的目前装置周边信息以及一语音输入,输出一语音识别结果。语音识别装置100包括一辨识网络产生装置110以及一辨识器115。辨识网络产生装置110包括一操作纪录存储器111、一活动模型建构器112、一活动预测器113以及一权重调整器114。操作纪录存储器111耦接活动模型建构器112。活动预测器113分别耦接活动模型建构器112与权重调整器114。活动预测器113接收电子装置10目前所侦知的目前装置周边信息以及来自活动模型建构器112的多个活动模型。权重调整器114接收来自活动预测器113的至少一选用活动模型,输出用以更新辨识网络的一权重调整信息。辨识器115耦接权重调整器114以及显示器120。辨识器115接收权重调整器114输出的权重调整信息以及该语音输入。最后,辨识器115利用权重调整信息辨识该语音输入,输出该语音识别结果。
表(一)及表(二)举例说明操作纪录存储器111所存储的多笔操作纪录的内容,其中每一操作纪录包含电子装置10执行过的操作内容,以及纪录对应操作内容执行时电子装置10所侦知的装置周边信息。在本实施例中,操作纪录存储器111用以存储一用户使用电子装置10的多笔操作纪录。每一这些操作纪录存储了该用户操作电子装置10时的行为纪录以及电子装置10当时的状态;表(一)中每一这些行为纪录为电子装置10执行过的一操作内容,而表(二)中纪录电子装置10当时的状态,也就是执行对应上述操作内容执行时电子装置10所侦知的装置周边信息。每一操作内容包含目标词汇、功能词汇、应用程序名称以及用户操作应用程序的一操作方式,其中目标词汇或功能词汇为操作内容对应的多个辨识词汇。每一装置周边信息包括电子装置10中的感应装置状态、时间状态、位置状态/移动状态、无线传输接口状态以及有线传输接口状态;但本发明的实施例不限定于此。
表(一)
表(二)
在本范例实施例中,表(一)及表(二)所示的编号1操作纪录,一用户于驾驶车辆的时候,使用例如是智能型手机或平板计算机等的电子装置10,在电子装置10的显示器120上触控选定歌手陈奕迅的歌曲播放。此时,电子装置10就会侦测并收集电子装置10的装置周边信息,例如,「星期六上午」(时间状态)、「移动中」(位置状态)、「中华-3G」(无线传输接口状态)以及「汽车插座」(有线传输接口状态)。接着,电子装置10的操作纪录存储器111就会在表(一)及表(二)纪录成为编号1操作纪录。该编号1操作纪录包含操作内容以及装置周边信息,其中表(一)纪录的操作内容包含「音乐」(应用程序名称)、「播放」(功能词汇)、「陈奕迅」(目标词汇)以及「触控」(操作方式)。
其中,表(一)中的应用程序名称包括所有可在电子装置10上操作的软件名称,例如音乐、天气信息、游戏、股市、通讯簿等等。功能词汇代表执行该应用程序名称的动作名称,而目标词汇代表功能词汇的执行对象。举例来说不论以音控、触控等任何控制方式达成的操作,例如:“查询(功能词汇)食品公司(目标词汇)的股票(应用程序名称-股市)”或是“请找(功能词汇)李大明(目标名称)(应用程序名称-电话)”均能对应区别出「功能词汇」、「目标词汇」或「应用程序名称」以便加以纪录;其中应用程序名称通讯簿可由该用户操作电子装置10时决定。因此,电子装置10的操作纪录存储器111就会在该用户每次使用应用程序时,纪录电子装置10操作内容以及当时的装置周边信息作为一笔操作纪录。因此,操作纪录存储器111存储了该用户使用电子装置10时的每一这些操作纪录。
本发明的一实施例说明活动模型建构器112如何将操作纪录分群为多个活动模型中,即依据多笔操作纪录的每一装置周边信息,将多笔操作纪录分群为多个活动模型。首先,活动模型建构器112加载操作纪录存储器111中的所有操作纪录。活动模型建构器112将所有操作纪录中的每一装置周边信息分别转化成一特征数据。在本实施例中,该特征数据为一特征向量。以表(一)及表(二)中的编号1操作纪录为例,活动模型建构器112将该编号1操作纪录的周边信息(星期六上午、移动中、中华-3G以及汽车插座)转换成一特征向量X1=[7.7,8,3,5];或是以表(一)及表(二)中中的编号7操作纪录为例,活动模型建构器112将该编号7操作纪录的周边信息(星期四上午、停留、公司-Wi-Fi以及公司笔电连接线)转换成一特征向量X7=[4.9,3,8,10]。同理,活动模型建构器112将表(一)及(二)中的编号1~编号Z操作纪录的周边信息对应转换成Z个特征向量X1~XZ。
此时,活动模型建构器112依据该Z个特征向量X1~XZ的数值特性将这些特征向量X1~XZ分成K个群组,即活动模型建构器112依据这些特征数据(特征向量X1~XZ)之间的近似度将这些特征数据分群为多个活动模型,其中每一个活动模型依据所含的多个特征数据产生一代表特征数据。在本实施例中,活动模型建构器112例如使用LBG K-means算法利用该Z个特征向量X1~XZ做分群的动作,其中本发明不并限于上述LBG K-means算法,也可例如使用K-means算法或KNN(k-Nearest Neighbor)算法,即活动模型建构器112依据上述算法,依照特征向量X1~XZ之间的近似度将特征向量X1~XZ分群为多个活动模型,但本发明不限于此。在进行分群之后(例如分成K群),活动模型建构器112会对每一群这些特征向量计算出一平均值作为一代表特征数据,在本实施例中,代表特征数据为代表特征向量Yi(i=1~K)。最后,活动模型建构器112会依据该分群结果建立K个活动模型M1~M-K,其中每一活动模型Mi(i=1~K)包含一代表特征向量Yi、被分群至第i群的多个特征向量以及被分群至第i群的多个特征向量所对应的多个操作内容。
图2显示活动模型建构器112在不同时间对这些个特征向量的分群结果。由于操作纪录存储器111会持续纪录该用户留下的操作纪录,并传送至活动模型建构器112更新。如图2所示,操作纪录存储器111在一周后多纪录了七个操作纪录,并依此类推。当操作纪录存储器111纪录下新的操作内容和装置周边信息,活动模型建构器112随之产生新的特征向量Xj。接着,活动模型建构器112会通过例如LBG K-means算法对所有的特征向量重新进行分群。因此,图2显示了不同时间点(例如:现在、一周后、两周后、三周后以及四周后)活动模型建构器112产生的分群结果,其中每一活动模型中的每一点代表了一个特征向量。
在本范例实施例中,由图2可知,活动模型建构器112最初依据现有操作纪录建立一第一活动模型。在两周后,活动模型建构器112已通过LBG K-means算法将所有特征向量分成两群,并分别建立对应的第一活动模型与第二活动模型。这是由于使用LBG K-means算法的特点是会将特征向量最多的活动模型分裂成为两个。接着,在三周后,可以发现第二活动模型所属相比第一活动模型具有较多的特征向量,且第二活动模型所属的这些特征向量也具有较大的差异性。最后,直到四周后,活动模型建构器112同样通过LBG K-means算法将所有特征向量分成新的第一、第二及第三活动模型。
本发明的一实施例说明活动预测器113依据电子装置目前所侦知的目前装置周边信息与每一活动模型Mi(i=1~K)的近似度,由多个活动模型中选出至少一选用活动模型。首先,活动预测器113接收电子装置10目前所侦知的目前装置周边信息以及来自活动模型建构器112的该多个活动模型。活动预测器113将该目前装置周边信息转换成一目前特征数据;在本实施例中,该目前特征数据为一目前特征向量XC。接着,活动预测器113分别依据该目前特征向量XC与每一活动模型Mi(i=1~K)对应的代表特征向量Yi(i=1~K),计算每一活动模型Mi(i=1~K)对应的一相似系数Ci(i=1~K)。其中该相似系数Ci(i=1~K)例如为该目前特征向量XC与该代表特征向量Yi(i=1~K)之间距离的倒数(但是不限定于此),如下式:
Ci=1/|Xc-Yi|2,i=1~K,其中|Xc-Yi|2表示XC与Yi-(i=1~K)的2-norm值。
最后,活动预测器113依据这些相似系数Ci(i=1~K)大小由大至小产生一排序结果,即通过相似系数Ci(i=1~K)可得知目前装置周边信息与每一活动模型Mi(i=1~K)的近似度,活动预测器113将排序结果中前N个相似系数对应到的活动模型Mi(i=1~K)中选出为至少一选用活动模型MCm(m=1~N)。
图3是以流程图举例说明权重调整器114对该至少一选用活动模型MCm(m=1~N)中每一操作内容对应的多个辨识词汇进行权重调整。本实施例中所指的辨识词汇则为目标词汇或是功能词汇。在步骤S301中,权重调整器114接收来自活动预测器113的所有选用活动模型MCm(m=1~N)。如先前所述,每一选用活动模型MCm(m=1~N)包含一代表特征向量Ym、第m群特征向量以及第m群特征向量所对应的多个操作内容。在步骤S302中,权重调整器114在该所有选用活动模型MCm(m=1~N)所包含的多个辨识词汇中选定一辨识词汇作为一权重调整词汇C,即权重调整器114是依据多个辨识词汇在每一选用活动模型MCm(m=1~N)的每一操作内容中的一第一出现次数nc,m以及每一应用程序名称在每一选用活动模型MCm(m=1~N)的每一操作内容中的一第二出现次数na,c,m,对每一选用活动模型MCm(m=1~N)中的所有操作内容对应的多个辨识词汇进行权重调整。例如,活动预测器113先在表(一)及表(二)的多笔操作纪录中选定三个选用活动模型MCm(m=1~3),其中该三个选用活动模型MC1、MC2、MC3总共包含编号1、2、3、5~15、(Z-2)及(Z-1)的操作内容。此时,权重调整器114选定功能词汇“定位”作为权重调整词汇C。
在步骤S303中,权重调整器114在该N个选用活动模型中选定一选用活动模型MCm作为一权重调整模型。在步骤S304中,权重调整器114统计或计算权重调整词汇C在权重调整模型所含的多个操作内容中的出现次数作为一第一出现次数nc,m。同样以表(一)及表(二)所示的操作纪录为例,权重调整器114先选定上述第一选用活动模型MC1作为权重调整模型。此时,权重调整模型包含编号1、2、3、(Z-2)及(Z-1)的操作内容,且权重调整词汇C为“定位”。接着,权重调整器114可以找到权重调整词汇C“定位”分别出现在编号(Z-2)以及编号(Z-1)的操作纪录中。最后,权重调整器114统计出权重调整词汇C“定位”的第一出现次数nc,m为2。
在步骤S305中,权重调整器114找出权重调整词汇C在权重调整模型所含的多个操作内容中对应的每一应用程序名称。权重调整器114会计算该应用程序名称在所有选用活动模型中的出现次数作为一第二出现次数na,c,m。同样以表(一)及表(二)所示的操作纪录为例,权重调整器114找出权重调整词汇C“定位”所对应的应用程序名称为“电子地图”。接着,权重调整器114统计该应用程序名称“电子地图”在所有选用活动模型MCm(m=1~N)对应的多个操作内容中的出现次数。假设,该应用程序名称“电子地图”在这些操作内容中被使用了23次。最后,权重调整器114统计出权重调整词汇C“定位”对应的第二出现次数na,c,m为23。
在步骤S306中,权重调整器114依据该第一出现次数nc,m以及该第二出现次数na,c,m计算权重调整词汇C对应的一选用权重值wc,m(m=1~N)。在步骤S307中,权重调整器114判断是否每一选用活动模型MCm(m=1~N)都计算出一对应的该选用权重值wc,m(m=1~N)。若是,进入步骤S308;若否,则回到步骤S303。
在步骤S308中,权重调整器114依据每一选用活动模型MCm(m=1~N)对应的每一选用权重值wc,m(m=1~N)计算出权重调整词汇C对应的一权重值Wc,其中权重值的计算是依据下式:
在步骤S309中,权重调整器114判断所有选用活动模型MCm(m=1~N)中的每一辨识词汇是否都计算出一对应的权重值Wc。若是,进入步骤S310;若否,则回到步骤S302。在步骤S310中,权重调整器114将所有选用活动模型MCm(m=1~N)中每一辨识词汇对应的权重值Wc作为权重调整信息,并将该权重调整信息输出至辨识器115。
本发明的另一实施例说明辨识器115依据权重调整信息以及该语音输入,输出一语音识别结果。在本实施例中,辨识器115存储一辨识词汇词库,其中该辨识词汇词库包含执行电子装置10的操作功能时会使用到的所有辨识词汇,且每一辨识词汇都具有一对应的权重值Wc。辨识器115在接收到来自权重调整器114输出的权重调整信息后,利用权重调整信息更新辨识词汇词库,即会将所有选用活动模型MCm(m=1~N)中每一辨识词汇对应的权重值Wc取代该辨识词汇词库中相同辨识词汇对应到的权重值Wc。辨识器115依据该语音输入,在更新过的辨识词汇词库中辨识出一辨识目标词汇,其中该辨识目标词汇为辨识词汇词库中所包含的目标词汇的其中之一。
接着,辨识器115在操作纪录存储器111所存储的这些操作内容中,找出与辨识目标词汇在同一操作内容的每一功能词汇,再依据每一功能词汇对应的应用程序名称的第二出现次数na,c,m大小排序这些功能词汇。最后,辨识器115将该辨识目标词汇以及这些排序过的功能词汇传送至显示器120显示。此时,该使用者通过显示器120于这些排序过的功能词汇中选定一辨识功能词汇。最后,辨识器115于接收该辨识功能词汇之后,将该辨识目标词汇与该辨识功能词汇作为该语音识别结果。
图4显示在辨识词汇分群、辨识词汇权重值以及辨识成功率彼此之间的关系图。在本实施例中,选定1000个人名词汇作为辨识器115的辨识词汇词库,且每一人名词汇在辨识网络的权重初始值为1/1000=0.001。接着,辨识器115依次输入906个语音输入进行语音识别,其中该906个语音输入代表了593个人名词汇。最后,计算辨识器115的辨识成功率。在辨识过程中,电子装置10中的操作纪录存储器111在辨识一语音输入时,会纪录下辨识出的人名词汇以及进行辨识时电子装置10的装置周边信息。本实施例的活动模型建构器112依据LBG K-means算法将操作纪录存储器111中的多个操作内容(包括多个人名词汇)进行分群。于此,为了了解分群并仅调整所有选用活动模型中该多个人名词汇的权重信息的重要性,本实施例与未经分群即更新人名词汇的辨识成功率进行比较。
由图4的实验结果可知,经过分群更新权重调整信息的辨识词汇词库(图中实线部份)相比未经分群更新权重调整信息的辨识词汇词库(图中虚线部份)具有较高的辨识成功率。另外,由先前图3的权重调整方法可知,越常被辨识出的人名词汇会具有较高的权重值Wc(因为第一出现次数nc,m、第二出现次数na,c,m较高)。因此,从图5可以看出较高的权重值Wc也可以提升人名词汇的辨识成功率。这是由于本发明的语音识别方法可以依据电子装置10的周边信息与人名词汇的使用频率调整该人名词汇在辨识词汇词库中的权重值,因而大幅提高使用者常用人名词汇的辨识成功率。
图5说明图1的语音识别装置100的另一实施方式。在图5中,电子装置50依据目前所侦知的目前装置周边信息与一语音输入,输出一语音识别结果。电子装置50包括一语音识别装置500以及一显示器510。语音识别装置500包括一处理器501、一存储单元502以及一辨识器503。处理器501耦接存储单元502以及辨识器503。辨识器503耦接显示器510。存储单元502与上述操作纪录存储器111的存储内容相同,同样存储电子装置50的多笔操作纪录,其中每一操作纪录包含电子装置50执行过的一操作内容,以及纪录对应该操作内容时电子装置50所侦知的一装置周边信息。处理器501接收电子装置50所侦知的目前装置周边信息。接着,处理器501加载及执行一辨识网络产生程序,其中该辨识网络产生程序执行上述活动模型建构器112、活动预测器113以及权重调整器114的动作。最后,处理器501输出权重调整信息至辨识器503。辨识器503利用该权重调整信息辨识该语音输入,输出该语音识别结果。
本发明虽以优选实施例揭露如上,使得本领域普通技术人员能够更清楚地理解本发明的内容。然而,本领域普通技术人员应理解到他们可轻易地以本发明作为基础,设计或修改流程以及使用不同的辨识网络产生装置进行相同的目的和/或达到这里介绍的实施例的相同优点。因此本发明的保护范围当视权利要求所界定者为准。
Claims (15)
1.一种辨识网络产生装置,设置于一电子装置上,其特征在于,包括:
一操作纪录存储器,存储该电子装置的多笔操作纪录,其中每一该操作纪录包含在该电子装置执行过的一操作内容,与对应该操作内容执行时该电子装置所侦知的一装置周边信息;
一活动模型建构器,耦接该操作纪录存储器,依据该多笔操作纪录的所有该装置周边信息,将该多笔操作纪录分群为多个活动模型;
一活动预测器,依据该电子装置目前所侦知的一目前装置周边信息与每一该活动模型的近似度,由该多个活动模型中选出至少一选用活动模型;以及
一权重调整器,对该至少一选用活动模型中的所有该操作内容对应的多个辨识词汇进行权重调整;
其中,该操作内容对应的该多个辨识词汇包括至少一目标词汇或一功能词汇,其中该操作内容还包括一应用程序名称。
2.根据权利要求1所述的辨识网络产生装置,其中该活动模型建构器将该装置周边信息转化成一特征数据;
该活动模型建构器依据所有该特征数据之间的近似度将这些特征数据分群为该多个活动模型,其中每一该活动模型依据所含的该多个特征数据产生一代表特征数据。
3.根据权利要求2所述的辨识网络产生装置,其中该活动预测器将该目前装置周边信息转化成一目前特征数据;
该活动预测器依据该目前特征数据与每一该活动模型对应的该代表特征数据,计算每一该活动模型对应的一相似系数;
该活动预测器根据该相似系数,挑选出该至少一选用活动模型。
4.根据权利要求1所述的辨识网络产生装置,其中该权重调整器是依据该辨识词汇在该至少一选用活动模型的所有该操作内容中的一第一出现次数以及每一该应用程序名称在该至少一选用活动模型的每一该操作内容中的一第二出现次数,对该至少一选用活动模型中的所有该操作内容对应的该多个辨识词汇进行权重调整。
5.根据权利要求4所述的辨识网络产生装置,其中该电子装置还包括一显示器以及一辨识器;
其中该辨识器,耦接该权重调整器,接收该权重调整器输出的一权重调整信息,并接收一语音输入;
其中该辨识器存储一辨识词汇词库,并利用该权重调整信息更新该辨识词汇词库;
其中该辨识器依据该语音输入与更新过的该辨识词汇词库辨识出一辨识目标词汇,其中该辨识目标词汇为该辨识词汇词库中所有目标词汇的其中之一;
其中该辨识器在所有该操作内容中找出跟该辨识目标词汇在相同该操作内容的每一该功能词汇,再依据每一该功能词汇对应的该应用程序名称的该第二出现次数大小排序每一该功能词汇;以及
其中该显示器,耦接该辨识器,用以显示来自该辨识器的该辨识目标词汇以及排序过的每一该功能词汇。
6.根据权利要求5所述的辨识网络产生装置,其中一用户在排序过的每一该功能词汇中选择一辨识功能词汇,该辨识器接收该辨识功能词汇,并将该辨识目标词汇与该辨识功能词汇作为输出的一语音识别结果。
7.根据权利要求1所述的辨识网络产生装置,其中每一装置周边信息可包括一感应装置状态、一时间状态、一位置状态、一移动状态、一无线传输接口状态、或一有线传输接口状态。
8.一种辨识网络产生方法,其特征在于,包括:
存储使用一电子装置的多笔操作纪录其中每一该操作纪录包含在该电子装置执行过的一操作内容,与对应该操作内容执行时该电子装置所侦知的一装置周边信息;
依据该多笔操作纪录的所有该装置周边信息,将该多笔操作纪录分群为多个活动模型;
依据该电子装置目前所侦知的一目前装置周边信息与每一该活动模型的近似度,由该多个活动模型中选出至少一选用活动模型;以及
对该至少一选用活动模型中的所有该操作内容对应的多个辨识词汇进行权重调整;
其中,该操作内容对应的该多个辨识词汇包括至少一目标词汇或一功能词汇,且每一该操作内容更包括一应用程序名称。
9.根据权利要求8所述的辨识网络产生方法,其特征在于,还包括:
将该装置周边信息转化成一特征数据;
依据所有该特征数据之间的近似度将这些特征数据分群为该多个活动模型,其中每一该活动模型依据所含的该多个特征数据产生一代表特征数据。
10.根据权利要求9所述的辨识网络产生方法,其特征在于,还包括:
将该目前装置周边信息转化成一目前特征数据;
依据该目前特征数据与每一该活动模型对应的该代表特征数据,计算每一该活动模型对应的一相似系数;
根据该相似系数,挑选出该至少一选用活动模型。
11.根据权利要求8所述的辨识网络产生方法,其中还依据该辨识词汇在该至少一选用活动模型的所有该操作内容中的一第一出现次数以及每一该应用程序名称在该至少一选用活动模型的所有该操作内容中的一第二出现次数,对该至少一选用活动模型中的所有该操作内容对应的该多个辨识词汇进行权重调整。
12.根据权利要求11所述的辨识网络产生方法,其中接收一权重调整信息以及一语音输入,并利用该权重调整信息更新一辨识词汇词库;
其中更依据该语音输入与更新过的该辨识词汇词库辨识出一辨识目标词汇,且该辨识目标词汇为该辨识词汇词库中所有目标词汇的其中之一;以及
在所有该操作内容中找出跟该辨识目标词汇在相同该操作内容的每一该功能词汇,再依据每一该功能词汇对应的该应用程序名称的该第二出现次数大小排序每一这些功能词汇。
13.根据权利要求12所述的辨识网络产生方法,其中一使用者在排序过的每一该功能词汇中选择一辨识功能词汇,并将该辨识目标词汇与该辨识功能词汇作为输出的一语音识别结果。
14.根据权利要求8所述的辨识网络产生方法,其中每一装置周边信息可包括一感应装置状态、一时间状态、一位置状态、一移动状态、一无线传输接口状态、或一有线传输接口状态。
15.一种语音识别装置,设于一电子装置上,其特征在于,包括:
一存储单元,存储该电子装置的多笔操作纪录,其中每一该操作纪录包含在该电子装置执行过的一操作内容,与对应该操作内容执行时该电子装置所侦知的一装置周边信息;
一辨识器;以及
一处理器,耦接该存储单元,该处理器用以加载及执行一辨识网络产生程序;
该处理器执行该辨识网络产生程序,依据该多笔操作纪录的所有装置周边信息,将该多笔操作纪录分群为多个活动模型;
该处理器执行该辨识网络产生程序,依据该电子装置目前所侦知的一目前装置周边信息与每一该活动模型的近似度,由该多个活动模型中选出至少一选用活动模型;
该处理器执行该辨识网络产生程序,对该至少一选用活动模型中的所有该操作内容对应的多个辨识词汇进行权重调整;以及
该辨识器利用一权重调整信息辨识一语音输入,输出一语音识别结果;
其中,该操作内容对应的该多个辨识词汇包括至少一目标词汇或一功能词汇,且每一该操作内容更包括一应用程序名称。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW102147889A TWI506458B (zh) | 2013-12-24 | 2013-12-24 | 辨識網路產生裝置及其方法 |
TW102147889 | 2013-12-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104731548A CN104731548A (zh) | 2015-06-24 |
CN104731548B true CN104731548B (zh) | 2017-09-29 |
Family
ID=53400693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310746425.2A Active CN104731548B (zh) | 2013-12-24 | 2013-12-30 | 辨识网络产生装置及其方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10002609B2 (zh) |
CN (1) | CN104731548B (zh) |
TW (1) | TWI506458B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109887507B (zh) * | 2019-04-22 | 2021-03-12 | 成都启英泰伦科技有限公司 | 一种降低相似语音命令词误识别率的方法 |
CN110288983B (zh) * | 2019-06-26 | 2021-10-01 | 上海电机学院 | 一种基于机器学习的语音处理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101388011A (zh) * | 2007-09-13 | 2009-03-18 | 北京搜狗科技发展有限公司 | 一种向用户词库中记录信息的方法和装置 |
CN102737629A (zh) * | 2011-11-11 | 2012-10-17 | 东南大学 | 一种嵌入式语音情感识别方法及装置 |
CN103177721A (zh) * | 2011-12-26 | 2013-06-26 | 中国电信股份有限公司 | 语音识别方法和系统 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6122361A (en) | 1997-09-12 | 2000-09-19 | Nortel Networks Corporation | Automated directory assistance system utilizing priori advisor for predicting the most likely requested locality |
SE9801140D0 (sv) | 1998-04-01 | 1998-04-01 | Tetra Laval Holdings & Finance | Laminerat förpackningsmaterial samt förpackningsbehållare framställd därav |
US6370503B1 (en) | 1999-06-30 | 2002-04-09 | International Business Machines Corp. | Method and apparatus for improving speech recognition accuracy |
US6754629B1 (en) * | 2000-09-08 | 2004-06-22 | Qualcomm Incorporated | System and method for automatic voice recognition using mapping |
US6856957B1 (en) * | 2001-02-07 | 2005-02-15 | Nuance Communications | Query expansion and weighting based on results of automatic speech recognition |
US7873523B2 (en) | 2005-06-30 | 2011-01-18 | Microsoft Corporation | Computer implemented method of analyzing recognition results between a user and an interactive application utilizing inferred values instead of transcribed speech |
US8032375B2 (en) | 2006-03-17 | 2011-10-04 | Microsoft Corporation | Using generic predictive models for slot values in language modeling |
US7752152B2 (en) | 2006-03-17 | 2010-07-06 | Microsoft Corporation | Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling |
US8244545B2 (en) | 2006-03-30 | 2012-08-14 | Microsoft Corporation | Dialog repair based on discrepancies between user model predictions and speech recognition results |
TWI311311B (en) * | 2006-11-16 | 2009-06-21 | Inst Information Industr | Speech recognition device, method, application program, and computer readable medium for adjusting speech models with selected speech data |
TWI319563B (en) | 2007-05-31 | 2010-01-11 | Cyberon Corp | Method and module for improving personal speech recognition capability |
US7882056B2 (en) * | 2007-09-18 | 2011-02-01 | Palo Alto Research Center Incorporated | Method and system to predict and recommend future goal-oriented activity |
JP5190252B2 (ja) | 2007-11-27 | 2013-04-24 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 嗜好マッチング・システム、方法及びプログラム |
US8255224B2 (en) | 2008-03-07 | 2012-08-28 | Google Inc. | Voice recognition grammar selection based on context |
US20090234655A1 (en) | 2008-03-13 | 2009-09-17 | Jason Kwon | Mobile electronic device with active speech recognition |
KR101537078B1 (ko) | 2008-11-05 | 2015-07-15 | 구글 인코포레이티드 | 사용자 정의 언어 모델들 |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US8239129B2 (en) | 2009-07-27 | 2012-08-07 | Robert Bosch Gmbh | Method and system for improving speech recognition accuracy by use of geographic information |
US8468012B2 (en) * | 2010-05-26 | 2013-06-18 | Google Inc. | Acoustic model adaptation using geographic information |
US9009041B2 (en) | 2011-07-26 | 2015-04-14 | Nuance Communications, Inc. | Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data |
JP5694102B2 (ja) | 2011-09-22 | 2015-04-01 | 株式会社東芝 | 音声認識装置、音声認識方法およびプログラム |
US20140278415A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Voice Recognition Configuration Selector and Method of Operation Therefor |
-
2013
- 2013-12-24 TW TW102147889A patent/TWI506458B/zh active
- 2013-12-30 CN CN201310746425.2A patent/CN104731548B/zh active Active
-
2014
- 2014-11-13 US US14/541,116 patent/US10002609B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101388011A (zh) * | 2007-09-13 | 2009-03-18 | 北京搜狗科技发展有限公司 | 一种向用户词库中记录信息的方法和装置 |
CN102737629A (zh) * | 2011-11-11 | 2012-10-17 | 东南大学 | 一种嵌入式语音情感识别方法及装置 |
CN103177721A (zh) * | 2011-12-26 | 2013-06-26 | 中国电信股份有限公司 | 语音识别方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
US10002609B2 (en) | 2018-06-19 |
TWI506458B (zh) | 2015-11-01 |
US20150179171A1 (en) | 2015-06-25 |
CN104731548A (zh) | 2015-06-24 |
TW201525732A (zh) | 2015-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109903773B (zh) | 音频处理方法、装置及存储介质 | |
CN107911491A (zh) | 信息推荐方法、装置及存储介质、服务器和移动终端 | |
CN109947919A (zh) | 用于生成文本匹配模型的方法和装置 | |
CN110853618A (zh) | 一种语种识别的方法、模型训练的方法、装置及设备 | |
CN108182229A (zh) | 信息交互方法及装置 | |
CN107894827B (zh) | 应用清理方法、装置、存储介质及电子设备 | |
CN110019777B (zh) | 一种信息分类的方法及设备 | |
CN107146611A (zh) | 一种语音响应方法、装置及智能设备 | |
CN101149804A (zh) | 自适应手写识别系统和方法 | |
CN107885545B (zh) | 应用管理方法、装置、存储介质及电子设备 | |
CN109635098A (zh) | 一种智能问答方法、装置、设备及介质 | |
CN109784133B (zh) | 动作评量模型生成装置及其动作评量模型生成方法 | |
CN108268637A (zh) | 一种智能语音矫正识别方法、装置和用户终端 | |
CN111950275B (zh) | 基于循环神经网络的情绪识别方法、装置及存储介质 | |
CN109324902A (zh) | 一种调整移动终端工作频率的方法、移动终端及存储介质 | |
CN104731548B (zh) | 辨识网络产生装置及其方法 | |
JP5018120B2 (ja) | 携帯端末、プログラム及び携帯端末への表示画面制御方法 | |
CN103905636A (zh) | 信息处理方法及电子设备 | |
CN110378428A (zh) | 一种家用机器人及其情绪识别方法和装置 | |
CN106325113A (zh) | 机器人控制引擎及系统 | |
CN103474063B (zh) | 语音辨识系统以及方法 | |
CN102981607A (zh) | 以预定义顺序排列文本项的计算机实现的方法 | |
CN112445933A (zh) | 一种模型训练方法、装置、设备及存储介质 | |
CN112820302A (zh) | 声纹识别方法、装置、电子设备和可读存储介质 | |
CN113076397A (zh) | 意图识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |