CN104063500B - 信息处理设备以及信息处理方法 - Google Patents
信息处理设备以及信息处理方法 Download PDFInfo
- Publication number
- CN104063500B CN104063500B CN201410319260.5A CN201410319260A CN104063500B CN 104063500 B CN104063500 B CN 104063500B CN 201410319260 A CN201410319260 A CN 201410319260A CN 104063500 B CN104063500 B CN 104063500B
- Authority
- CN
- China
- Prior art keywords
- string
- character
- character string
- assemble
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 46
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 82
- 238000004891 communication Methods 0.000 claims abstract description 16
- 238000013500 data storage Methods 0.000 claims description 6
- 238000000034 method Methods 0.000 description 10
- 235000003140 Panax quinquefolius Nutrition 0.000 description 6
- 240000005373 Panax quinquefolius Species 0.000 description 6
- 230000007717 exclusion Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 238000007689 inspection Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/61—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
信息处理设备以及信息处理方法,所述信息处理设备包括:通信单元,配置来从网络获取具有多个第一字符串的第一字符串集合;处理单元,配置来对所述第一字符串集合进行数据扩展以形成第二字符串集合,所述第一字符串集合中的每一个第一字符串与所述第二字符串集合中的至少一个第二字符串对应,对所述第二字符串集合中的每一个第二字符串进行字音标准化处理,并且基于所述字音标准化处理的结果产生索引数据,其中在语音输入检索中,所述索引数据用来查找所述第二字符串集合中是否存在与所述语音输入对应的第二字符串;以及存储单元,配置来存储所述第一字符串集合、所述第二字符串集合以及所述索引数据。
Description
技术领域
本发明涉及一种信息处理设备以及信息处理方法。
背景技术
随着技术的发展,语音识别技术正在得到广泛的使用。但是,目前已经应用的通用语音识别引擎的识别率通常在75%左右,距离人类96%以上的识别率还有很大的差距。此外,在语音识别引擎的数据库的内容过多的情况下,语音识别引擎的识别速度也往往不能令人满意。
因此,希望提供一种能够提高语音输入的识别效率以及语音识别速度的技术。
发明内容
为了解决现有技术中的上述技术问题,根据本发明的一方面,提供一种信息处理设备,包括:通信单元,配置来从网络获取具有多个第一字符串的第一字符串集合;处理单元,配置来对所述第一字符串集合进行数据扩展以形成第二字符串集合,所述第一字符串集合中的每一个第一字符串与所述第二字符串集合中的至少一个第二字符串对应,对所述第二字符串集合中的每一个第二字符串进行字音标准化处理,并且基于所述字音标准化处理的结果产生索引数据,其中在语音输入检索中,所述索引数据用来查找所述第二字符串集合中是否存在与所述语音输入对应的第二字符串;以及存储单元,配置来存储所述第一字符串集合、所述第二字符串集合以及所述索引数据。
此外,根据本发明的一个实施例,其中在所述处理单元进行所述数据扩展期间,所述处理单元基于所述第一字符串的内容确定具有相关内容的至少一个第二字符串。
此外,根据本发明的一个实施例,其中在对第二字符串集合中的每一个第二字符串进行字音标准化期间,所述处理单元将所述第二字符串集合中的每一个第二字符串中的不发音字符排除以产生第三字符串;如果所述第三字符串中存在数字字符,则所述处理单元将所述第三字符串中的数字字符标准化为同一类型的数字字符;以及所述处理单元基于音素或拼音将所述第三字符串划分为多个音素字符或拼音字符,并且基于所述音素字符或拼音字符产生索引数据。
此外,根据本发明的一个实施例,其中所述索引数据包括所述音素字符或所述拼音字符与所述第二字符串集合中的第二字符的关联的信息。
此外,根据本发明的一个实施例,所述信息处理设备还包括输入数据存储单元,其中在语音输入检索期间,所述处理单元将所述语音输入转换为第一输入字符串,并且对所述第一输入字符串进行字音标准化处理以产生第二输入字符串作为输入数据,并且将所述输入数据存储在所述输入数据存储单元。
此外,根据本发明的一个实施例,其中所述处理单元将基于第二输入字符串检索所述索引数据来查找所述第二字符串集合中是否存在与所述语音输入对应的第二字符串。
此外,根据本发明的另一方面,提供一种信息处理方法,应用于信息处理设备,所述信息处理设备包含通信单元以及存储单元,所述方法包括:通过所述通信单元从网络获取具有多个第一字符串的第一字符串集合;对所述第一字符串集合进行数据扩展以形成第二字符串集合,所述第一字符串集合中的每一个第一字符串与所述第二字符串集合中的至少一个第二字符串对应,对所述第二字符串集合中的每一个第二字符串进行字音标准化处理;基于所述字音标准化处理的结果产生索引数据,其中在语音输入检索中,所述索引数据用来查找所述第二字符串集合中是否存在与所述语音输入对应的第二字符串;以及在所述存储单元中存储所述第一字符串集合、所述第二字符串集合以及所述索引数据。
此外,根据本发明的一个实施例,其中在对所述第一字符串集合进行数据扩展的步骤进一步包括:基于所述第一字符串的内容确定具有相关内容的至少一个第二字符串。
此外,根据本发明的一个实施例,其中在对第二字符串集合中的每一个第二字符串进行字音标准化并基于所述字音标准化处理的结果产生索引数据的步骤进一步包括:将所述第二字符串集合中的每一个第二字符串中的不发音字符排除以产生第三字符串;如果所述第三字符串中存在数字字符,则将所述第三字符串中的数字字符标准化为同一类型的数字字符;以及基于音素或拼音将所述第三字符串划分为多个音素字符或拼音字符,并且基于所述音素字符或拼音字符产生索引数据。
此外,根据本发明的一个实施例,其中所述索引数据包括所述音素字符或所述拼音字符与所述第二字符串集合中的第二字符串的关联的信息。
此外,根据本发明的一个实施例,所述方法进一步包括:在语音输入检索期间,将所述语音输入转换为第一输入字符串,并且对所述第一输入字符串进行字音标准化处理以产生第二输入字符串作为输入数据,并且存储所述输入数据。
此外,根据本发明的一个实施例,其中将基于第二输入字符串检索所述索引数据来查找所述第二字符串集合中是否存在与所述语音输入对应的第二字符串。
通过上述方式,在获取第一字符串集合之后,对第一字符串集合中的第一字符串进行扩展,并且基于扩展结果产生索引数据,这不仅可以通过扩展增加语音输入检索的准确率/命中率,而且可以通过仅检索索引数据来降低数据处理量,因此大大提高了检索的准确率以及速度,由此增加用户的使用体验。
附图说明
图1是图解根据本发明实施例的信息处理设备的示意方框图;以及
图2是图解根据本发明实施例的信息处理方法的示意流程图。
具体实施方式
将参照附图详细描述根据本发明的各个实施例。这里,需要注意的是,在附图中,将相同的附图标记赋予基本上具有相同或类似结构和功能的组成部分,并且将省略关于它们的重复描述。
下面将参照图1描述根据本发明实施例的信息处理设备。这里,根据本发明实施例的信息处理设备可以是诸如智能手机、平板电脑、笔记本、PC之类的终端设备。
如图1所示,根据本发明实施例的信息处理设备1可以包括通信单元10、处理单元11以及存储单元12。
通信单元10可以由任意的通信模块实现,并且可以包括(但不限于)WiFi、2G/3G模块、网卡之类的通信模块。通信单元10可以从信息处理设备1所在的网络(如,局域网、广域网)获取数据。根据本发明的实施例,通信单元10可以从网络获取具有多个第一字符串的第一字符串集合。这里,例如,第一字符串集合可以是网络上的VOD视频数据的片名、视频网站提供的视频的名称、或者网络上提供的小说的名称等等。这里,可以通过预定的程序在信息处理设备1上提供第一字符串搜索范围的选项使得信息处理设备1的用户可以根据情况设置其希望的第一字符串集合的范围。
处理单元11可以由任意的处理器或者微处理器实现。处理单元11可以基于安装在信息处理设备1中的程序执行预设的处理。根据本发明的实施例,在从通信单元10接收到第一字符串集合之后,处理单元11可以对该第一字符串集合进行数据扩展以形成第二字符串集合。这里第一字符串集合中的每一个第一字符串与第二字符串集合中的至少一个第二字符串对应。
具体地,在处理单元11进行数据扩展期间,处理单元11可以基于第一字符串集合中的各个第一字符串的内容确定具有相关内容的至少一个第二字符串。这里,例如,处理单元11可以基于第一字符串集合中的各个第一字符串的内容对第一字符串进行垂直扩展以及水平扩展以产生对应于该第一字符串的至少一个第二字符串。
具体地,在第一字符串的末尾中包含数字(如,1,I,一)的情况下,处理单元11可以基于第一字符串集合中的各个第一字符串的内容对第一字符串进行垂直扩展以产生对应于该第一字符串的至少一个第二字符串。例如,处理单元11可以对第一字符串“冰河世纪4”进行垂直扩展以产生第二字符串“冰河世纪”、“冰河世纪2”、“冰河世纪3”以及“冰河世纪4”,另外,处理单元11可以对第一字符串“碟中谍III”进行垂直扩展以产生第二字符串“碟中谍”、“碟中谍II”、“碟中谍III”。此外,在第一字符串包含相互独立的内容的情况下,处理单元11可以第一字符串的内容对第一字符串进行水平扩展以产生对应于该第一字符串的至少一个第二字符串。例如,处理单元11可以对第一字符串“变节:潜罪犯”进行水平扩展以产生第二字符串“变节”、“潜罪犯”以及“变节:潜罪犯”,另外,处理单元11可以对第一字符串“狄仁杰之通天帝国”进行水平扩展以产生第二字符串“狄仁杰”、“通天帝国”、“狄仁杰之通天帝国”。这里,可以基于第一字符串中的特定字符(如,“:”、“的”、“之”、“(”、“)”等等)或者含义相互独立的词组来对第一字符串进行水平扩展以产生对应的至少一个第二字符串。此外,还可以使用任意的方式提取第一字符串中的关键字作为第二字符串。
然后,处理单元11对所产生的第二字符串集合中的每一个第二字符串进行字音标准化处理,并且基于字音标准化处理的结果产生索引数据。这里,所述索引数据是在语音输入检索中用来查找第二字符串集合中是否存在与语音输入对应的第二字符串。
具体地,根据本发明的一个实施例,在对第二字符串集合中的每一个第二字符串进行字音标准化期间,处理单元将第二字符串集合中的每一个第二字符串中的不发音字符排除/删除以产生第三字符串。这里,第二字符串中不发音的字符可以包括(但不限于)“:”、“,”、“。”、“”、“?”、“!”、“-”等等。在第二字符串中排除/删除不发音的字符以产生第三字符串的目的在于在进行与语音输入的匹配过程期间,降低不发音的字符对匹配结果的干扰。
然后,如果所产生的第三字符串中存在数字字符,则处理单元11还将第三字符串中的数字字符标准化为同一类型的数字字符。例如,如果第三字符串中存在数字“I、II、III、……”、“1、2、3……”或“一、二、三……”,则处理单元11将上述数字字符统一为“一、二、三……”。这里,使用统一的数字字符表述可以有效地降低在与语音输入的匹配过程期间由于数字表述不统一导致的漏检。在进行了不发音字符的排除并将数字字符的标准化处理之后,处理单元11还将第二字符串与对应的第三字符串进行关联。例如,处理单元11可以将第一标识符(如,唯一的编号、ID等等)分配给第二字符串,并且将第二标识符(如,唯一的编号、ID等等)分配给第三字符串,并且存储第一标识符与第二标识符的关联关系以将第二字符串与对应的第三字符串进行关联。
在排除了不发音字符并将数字字符标准化为同一来行的数字字符之后,处理单元11基于音素或拼音将第三字符串划分为多个音素字符或拼音字符,并且基于音素字符或拼音字符产生索引数据。
具体地,可以根据每一个第三字符串的发音规则,将第三字符串划分为多个音素字符或拼音字符,然后通过多个音素字符或拼音字符在第三字符串中的发音顺序(位置)以及分配给第三字符串的第二标识符来建立索引数据。
例如,在将第三字符串划分为多个拼音字符的示例中,对于第三字符串“中国好声音”,可以将该第三字符串划分为多个拼音字符“zhong”、“guo”、“hao”、“sheng”、“yin”。然后,针对拼音字符“zhong”、“guo”、“hao”、“sheng”、“yin”中的每一个,分别建立各个拼音字符与该第三字符串的关联关系以及该拼音字符在该第三字符串的位置关系。例如,对于拼音字符“zhong”来说,将第三字符串“中国好声音”的第二标识符以及该拼音字符在该第三字符串中的位置“1”分配给该拼音字符“zhong”,而对于拼音字符“guo”来说,将第三字符串的第二标识符以及该拼音字符在该第三字符串中的位置“2”分配给该拼音字符“guo”,然后以类似的方式,分别针对拼音字符“hao”、“sheng”、“yin”将第三字符串的第二标识符以及各个拼音字符在该第三字符串中的位置分配给对应的拼音字符。
此外,类似地,对于第三字符串“中国达人秀”,可以将该第三字符串划分为多个拼音字符“zhong”、“guo”、“da”、“ren”、“xiu”。然后,针对拼音字符“zhong”、“guo”、“da”、“ren”、“xiu”中的每一个,分别建立各个拼音字符与该第三字符串的关联关系以及该拼音字符在该第三字符串的位置关系。例如,对于拼音字符“zhong”来说,将该第三字符串“中国达人秀”的第二标识符以及该拼音字符在该第三字符串中的位置“1”分配给该拼音字符“zhong”,而对于拼音字符“da”来说,将该第三字符串的第二标识符以及该拼音字符在该第三字符串中的位置“3”分配给该拼音字符“da”,然后以类似的方式,分别针对拼音字符“guo”、“ren”、“秀”将该第三字符串的第二标识符以及各个拼音字符在该第三字符串中的位置分配给对应的拼音字符。
通过上述方式,将多个第三字符串划分为多个拼音字符,并且针对拼音字符中的每一个,分别建立各个拼音字符与该第三字符串的关联关系以及该拼音字符在该第三字符串的位置关系。在这种情况下,对于特定的拼音字符,存在该拼音字符与多个第三字符串的关联关系以及该拼音字符在各个第三字符串的位置,可以针对每一个拼音字符建立对照表以管理该拼音字符与多个第三字符串的关联关系以及该拼音字符在各个第三字符串的位置。在针对每一个拼音字符建立对照表之后,处理单元11可以对每一个拼音字符的对照表进行管理以形成索引数据。
此外,类似地,在将第三字符串划分为多个音素字符的示例中,处理单元11还可以将第三字符串划分为多个音素字符,然后通过多个音素字符或在第三字符串中的发音顺序(位置)以及分配给第三字符串的第二标识符来建立索引数据。
另外,为了便于检索,在所形成的索引数据中还包括音素字符或拼音字符与第二字符串集合中的第二字符的关联的信息。这里,由于第二字符串与第三字符串相互对应(通过第一标识符与第二标识符),因此,处理单元11可以在基于第二字符串与第三字符串的对应关系,在对照表中添加音素字符或拼音字符与第二字符串集合中的第二字符的关联的信息以实现索引数据和第二字符串集合中的第二字符串的对应关系。
这里,对所产生的第二字符串集合中的每一个第二字符串进行字音标准化处理并基于字音标准化处理的结果产生索引数据的目的在于减少语音输入检索的数据处理量。尤其是在第一字符串集合中的第一字符串数量较大,导致第二字符串的数量巨大(如,数十万)的情况下,在不形成索引数据的情况下,往往需要遍历所有的第二字符串,而索引数据的数量往往较少(通常在数千个),因此不需要进行大量的处理,由此有效地降低了处理单元11的负担并加快语音输入检索的速度。
根据本发明实施例的信息处理设备1还可以包括存储单元12。存储单元12可以由任意的非易失性存储器实现。根据本发明的实施例,处理单元11可以在存储单元12中存储第一字符串集合、所述第二字符串集合以及索引数据。
在上面描述了获取第一字符串集合,基于各个第一字符串产生对应的至少一个第二字符串,对每一个第二字符串进行声音标准化处理并基于标准化处理的结果产生索引数据的情况。下面,将描述在语音输入检索期间,处理单元11执行的处理。
在用户激活了语音输入检索的场景下,在语音输入检索期间,处理单元11首先通过输入话筒、麦克风之类的语音输入设备(未示出)将来自用户的语音输入转换为第一输入字符串。这里,可以使用任意的语音识别技术来将用户的语音输入转换为第一输入字符串。然后处理单元11可以对该第一输入字符串进行字音标准化处理以产生第二输入字符串(拼音字符或音素字符)作为输入数据。这里,为了对语音输入检索处理进行加速,信息处理设备1还可以包括输入数据存储单元(未示出),该输入数据存储单元可以由高速缓存或存储单元12实现,并且用于将该输入数据(第二输入字符串)存储在输入数据存储单元。
然后,处理单元11将基于第二输入字符串检索索引数据来查找第二字符串集合中是否存在与所述语音输入对应的第二字符串。
这里,可以通过按照第二输入字符串中的输入字符的顺序逐一检索索引数据来获得候选结果。例如,可以基于第二输入字符串中的特定输入字符从索引数据中找到对应的拼音字符或音素字符,并且通过对应于该拼音字符或音素字符的对照表来确定与第二输入字符串匹配的候选的第二字符串,即,其中拼音字符或音素字符的位置与第二输入字符串对应的第二字符串。这里,可以采用具有动态规划的编辑距离算法来基于第二输入字符串从索引数据中获得多个第二字符串相对于第二输入字符串的置信度。这里,可以预先设置一置信度阈值(如,80%),当特定的第二字符串与与第二输入字符串匹配的置信度高于该置信度阈值时,可以确定该第二字符串为候选字符串。这里,由于具有动态规划的编辑距离算法对于本领域技术人员来说是熟知的,因此这里省略了置信度计算的具体描述。
此外,为了进一步提高语音输入检索的准确率,除了置信度阈值之外,还可以设置字符长度阈值,即当第二输入字符串的长度与候选字符串的长度差大于一预设阈值(如,3)时,即使候选字符串的置信度较高,处理单元11也对该候选字符串进行排除。
最后,处理单元11通过显示单元(未示出)将处理后的候选字符串进行显示,以向信息处理设备1的用户提示语音输入的搜索结果。
通过上述方式,由于在获取第一字符串集合之后,对第一字符串集合中的第一字符串进行扩展,并且基于扩展结果产生索引数据,因此,不仅可以通过扩展增加语音输入检索的准确率,而且可以通过仅检索索引数据来降低数据处理量(如,数千量级对数十万量级),因此大大提高了检索的准确率以及速度,由此增加用户的使用体验。
接下来,将参照图2描述根据本发明实施例的信息处理方法。这里,根据本发明实施例的信息处理方法可以应用于图1所示的信息处理设备1,该信息处理设备1可以包含通信单元10以及存储单元12。
如图2所示,在步骤S201,通过通信单元从网络获取具有多个第一字符串的第一字符串集合。
具体地,处理单元11通过通信单元10从网络获取具有多个第一字符串的第一字符串集合。这里,例如,第一字符串集合可以是网络上的VOD视频数据的片名、视频网站提供的视频的名称、或者网络上提供的小说的名称等等。这里,可以通过预定的程序在信息处理设备1上提供第一字符串搜索范围的选项使得信息处理设备1的用户可以根据情况设置其希望的第一字符串集合的范围。
在步骤S202,对第一字符串集合进行数据扩展以形成第二字符串集合。这里,第一字符串集合中的每一个第一字符串与第二字符串集合中的至少一个第二字符串对应。
具体地,处理单元11可以基于第一字符串集合中的各个第一字符串的内容确定具有相关内容的至少一个第二字符串。这里,例如,处理单元11可以基于第一字符串集合中的各个第一字符串的内容对第一字符串进行垂直扩展以及水平扩展以产生对应于该第一字符串的至少一个第二字符串。具体地,在第一字符串的末尾中包含数字(如,1,I,一)的情况下,处理单元11可以基于第一字符串集合中的各个第一字符串的内容对第一字符串进行垂直扩展以产生对应于该第一字符串的至少一个第二字符串。例如,处理单元11可以对第一字符串“冰河世纪4”进行垂直扩展以产生第二字符串“冰河世纪”、“冰河世纪2”、“冰河世纪3”以及“冰河世纪4”,另外,处理单元11可以对第一字符串“碟中谍III”进行垂直扩展以产生第二字符串“碟中谍”、“碟中谍II”、“碟中谍III”。此外,在第一字符串包含相互独立的内容的情况下,处理单元11可以第一字符串的内容对第一字符串进行水平扩展以产生对应于该第一字符串的至少一个第二字符串。例如,处理单元11可以对第一字符串“变节:潜罪犯”进行水平扩展以产生第二字符串“变节”、“潜罪犯”以及“变节:潜罪犯”,另外,处理单元11可以对第一字符串“狄仁杰之通天帝国”进行水平扩展以产生第二字符串“狄仁杰”、“通天帝国”、“狄仁杰之通天帝国”。这里,可以基于第一字符串中的特定字符(如,“:”、“的”、“之”、“(”、“)”等等)或者含义相互独立的词组来对第一字符串进行水平扩展以产生对应的至少一个第二字符串。此外,还可以使用任意的方式提取第一字符串中的关键字作为第二字符串。
在步骤S203,对第二字符串集合中的每一个第二字符串进行字音标准化处理。
具体地,在对第二字符串集合中的每一个第二字符串进行字音标准化期间,处理单元将第二字符串集合中的每一个第二字符串中的不发音字符排除/删除以产生第三字符串。这里,第二字符串中不发音的字符可以包括(但不限于)“:”、“,”、“。”、“”、“?”、“!”、“-”等等。在第二字符串中排除/删除不发音的字符以产生第三字符串的目的在于在进行与语音输入的匹配过程期间,降低不发音的字符对匹配结果的干扰。然后,如果所产生的第三字符串中存在数字字符,则处理单元11还将第三字符串中的数字字符标准化为同一类型的数字字符。例如,如果第三字符串中存在数字“I、II、III、……”、“1、2、3……”或“一、二、三……”,则处理单元11将上述数字字符统一为“一、二、三……”。这里,使用统一的数字字符表述可以有效地降低在与语音输入的匹配过程期间由于数字表述不统一导致的漏检。在进行了不发音字符的排除并将数字字符的标准化处理之后,处理单元11还将第二字符串与对应的第三字符串进行关联。例如,处理单元11可以将第一标识符(如,唯一的编号、ID等等)分配给第二字符串,并且将第二标识符(如,唯一的编号、ID等等)分配给第三字符串,并且存储第一标识符与第二标识符的关联关系以将第二字符串与对应的第三字符串进行关联。
在步骤S204,基于字音标准化处理的结果产生索引数据。这里,在语音输入检索中,该索引数据用来查找第二字符串集合中是否存在与语音输入对应的第二字符串。
具体地,处理单元11基于音素或拼音将第三字符串划分为多个音素字符或拼音字符,并且基于音素字符或拼音字符产生索引数据。例如,可以根据每一个第三字符串的发音规则,将第三字符串划分为多个音素字符或拼音字符,然后通过多个音素字符或拼音字符在第三字符串中的发音顺序(位置)以及分配给第三字符串的第二标识符来建立索引数据。
例如,在将第三字符串划分为多个拼音字符的示例中,对于第三字符串“中国好声音”,可以将该第三字符串划分为多个拼音字符“zhong”、“guo”、“hao”、“sheng”、“yin”。然后,针对拼音字符“zhong”、“guo”、“hao”、“sheng”、“yin”中的每一个,分别建立各个拼音字符与该第三字符串的关联关系以及该拼音字符在该第三字符串的位置关系。例如,对于拼音字符“zhong”来说,将第三字符串“中国好声音”的第二标识符以及该拼音字符在该第三字符串中的位置“1”分配给该拼音字符“zhong”,而对于拼音字符“guo”来说,将第三字符串的第二标识符以及该拼音字符在该第三字符串中的位置“2”分配给该拼音字符“guo”,然后以类似的方式,分别针对拼音字符“hao”、“sheng”、“yin”将第三字符串的第二标识符以及各个拼音字符在该第三字符串中的位置分配给对应的拼音字符。
此外,类似地,对于第三字符串“中国达人秀”,可以将该第三字符串划分为多个拼音字符“zhong”、“guo”、“da”、“ren”、“xiu”。然后,针对拼音字符“zhong”、“guo”、“da”、“ren”、“xiu”中的每一个,分别建立各个拼音字符与该第三字符串的关联关系以及该拼音字符在该第三字符串的位置关系。例如,对于拼音字符“zhong”来说,将该第三字符串“中国达人秀”的第二标识符以及该拼音字符在该第三字符串中的位置“1”分配给该拼音字符“zhong”,而对于拼音字符“da”来说,将该第三字符串的第二标识符以及该拼音字符在该第三字符串中的位置“3”分配给该拼音字符“da”,然后以类似的方式,分别针对拼音字符“guo”、“ren”、“秀”将该第三字符串的第二标识符以及各个拼音字符在该第三字符串中的位置分配给对应的拼音字符。
通过上述方式,将多个第三字符串划分为多个拼音字符,并且针对拼音字符中的每一个,分别建立各个拼音字符与该第三字符串的关联关系以及该拼音字符在该第三字符串的位置关系。在这种情况下,对于特定的拼音字符,存在该拼音字符与多个第三字符串的关联关系以及该拼音字符在各个第三字符串的位置,可以针对每一个拼音字符建立对照表以管理该拼音字符与多个第三字符串的关联关系以及该拼音字符在各个第三字符串的位置。在针对每一个拼音字符建立对照表之后,处理单元11可以对每一个拼音字符的对照表进行管理以形成索引数据。
此外,类似地,在将第三字符串划分为多个音素字符的示例中,处理单元11还可以将第三字符串划分为多个音素字符,然后通过多个音素字符或在第三字符串中的发音顺序(位置)以及分配给第三字符串的第二标识符来建立索引数据。
另外,为了便于检索,在所形成的索引数据中还包括音素字符或拼音字符与第二字符串集合中的第二字符的关联的信息。这里,由于第二字符串与第三字符串相互对应(通过第一标识符与第二标识符),因此,处理单元11可以在基于第二字符串与第三字符串的对应关系,在对照表中添加音素字符或拼音字符与第二字符串集合中的第二字符的关联的信息以实现索引数据和第二字符串集合中的第二字符串的对应关系。
这里,对所产生的第二字符串集合中的每一个第二字符串进行字音标准化处理并基于字音标准化处理的结果产生索引数据的目的在于减少语音输入检索的数据处理量。尤其是在第一字符串集合中的第一字符串数量较大,导致第二字符串的数量巨大(如,数十万)的情况下,在不形成索引数据的情况下,往往需要遍历所有的第二字符串,而索引数据的数量往往较少(通常在数千个),因此不需要进行大量的处理,由此有效地降低了处理单元11的负担并加快语音输入检索的速度。
在步骤S205,在存储单元中存储第一字符串集合、第二字符串集合以及索引数据。
具体地,处理单元11可以在存储单元12中存储第一字符串集合、所述第二字符串集合以及索引数据以用于后续的语音输入检索。
此外,根据本发明的一个实施例,在进行语音输入检索时,图2的方法还可以进一步包括步骤:在语音输入检索期间,将语音输入转换为第一输入字符串,并且对第一输入字符串进行字音标准化处理以产生第二输入字符串作为输入数据,并且存储输入数据。
具体地,在用户激活了语音输入检索的场景下,在语音输入检索期间,处理单元11首先通过输入话筒、麦克风之类的语音输入设备(未示出)将来自用户的语音输入转换为第一输入字符串。这里,可以使用任意的语音识别技术来将用户的语音输入转换为第一输入字符串。然后处理单元11可以对该第一输入字符串进行字音标准化处理以产生第二输入字符串(拼音字符或音素字符)作为输入数据。这里,为了对语音输入检索处理进行加速,信息处理设备1还可以存储该输入数据(第二输入字符串)以进行高速缓冲。
然后,图2的方法还可以进一步包括步骤:将基于第二输入字符串检索索引数据来查找第二字符串集合中是否存在与语音输入对应的第二字符串。
具体地,例如,可以通过按照第二输入字符串中的输入字符的顺序逐一检索索引数据来获得候选结果。例如,可以基于第二输入字符串中的特定输入字符从索引数据中找到对应的拼音字符或音素字符,并且通过对应于该拼音字符或音素字符的对照表来确定与第二输入字符串匹配的候选的第二字符串,即,其中拼音字符或音素字符的位置与第二输入字符串对应或类似的第二字符串。这里,可以采用具有动态规划的编辑距离算法来基于第二输入字符串从索引数据中获得多个第二字符串相对于第二输入字符串的置信度。这里,可以预先设置一置信度阈值(如,80%),当特定的第二字符串与与第二输入字符串匹配的置信度高于该置信度阈值时,可以确定该第二字符串为候选字符串。这里,由于具有动态规划的编辑距离算法对于本领域技术人员来说是熟知的,因此这里省略了置信度计算的具体描述。此外,为了进一步提高语音输入检索的准确率,除了置信度阈值之外,还可以设置字符长度阈值,即当第二输入字符串的长度与候选字符串的长度差大于一预设阈值(如,3)时,即使候选字符串的置信度较高,处理单元11也对该候选字符串进行排除。最后,处理单元11通过显示单元(未示出)将处理后的候选字符串进行显示,以向信息处理设备1的用户提示语音输入的搜索结果。
在上面详细描述了本发明的各个实施例。然而,本领域技术人员应该理解,在不脱离本发明的原理和精神的情况下,可对这些实施例进行各种修改,组合或者子组合,并且这样的修改应落入本发明的范围内。
Claims (12)
1.一种信息处理设备,包括:
通信单元,配置来从网络获取具有多个第一字符串的第一字符串集合;
处理单元,配置来对所述第一字符串集合进行数据扩展以形成第二字符串集合,所述第一字符串集合中的每一个第一字符串与所述第二字符串集合中的至少一个第二字符串对应,产生索引数据,其中在语音输入检索中,所述索引数据用来查找所述第二字符串集合中是否存在与所述语音输入对应的第二字符串;以及
存储单元,配置来存储所述第一字符串集合、所述第二字符串集合以及所述索引数据;其中
所述对所述第一字符串集合进行数据扩展以形成第二字符串集合包括:
当所述第一字符串的末尾中包含与数字对应的第一特定字符时,对所述第一字符串集合进行垂直数据扩展以形成第二字符串集合;
当所述第一字符串中包含由第二特定字符隔开的多个字符时,对所述第一字符串集合进行水平数据扩展以形成第二字符串集合。
2.如权利要求1所述的信息处理设备,其中
在所述处理单元进行所述数据扩展期间,所述处理单元基于所述第一字符串的内容确定具有相关内容的至少一个第二字符串。
3.如权利要求1所述的信息处理设备,其中,所述处理单元通过对所述第二字符串集合中的每一个第二字符串进行字音标准化处理,并且基于所述字音标准化处理的结果产生所述索引数据,在对第二字符串集合中的每一个第二字符串进行字音标准化期间,
所述处理单元将所述第二字符串集合中的每一个第二字符串中的不发音字符排除以产生第三字符串;
如果所述第三字符串中存在数字字符,则所述处理单元将所述第三字符串中的数字字符标准化为同一类型的数字字符;以及
所述处理单元基于音素或拼音将所述第三字符串划分为多个音素字符或拼音字符,并且基于所述音素字符或拼音字符产生索引数据。
4.如权利要求3所述的信息处理设备,其中
所述索引数据包括所述音素字符或所述拼音字符与所述第二字符串集合中的第二字符的关联的信息。
5.如权利要求1所述的信息处理设备,还包括输入数据存储单元,其中在语音输入检索期间,所述处理单元将所述语音输入转换为第一输入字符串,并且对所述第一输入字符串进行字音标准化处理以产生第二输入字符串作为输入数据,并且将所述输入数据存储在所述输入数据存储单元。
6.如权利要求5所述的信息处理设备,其中
所述处理单元将基于第二输入字符串检索所述索引数据来查找所述第二字符串集合中是否存在与所述语音输入对应的第二字符串。
7.一种信息处理方法,应用于信息处理设备,所述信息处理设备包含通信单元以及存储单元,所述方法包括:
通过所述通信单元从网络获取具有多个第一字符串的第一字符串集合;
对所述第一字符串集合进行数据扩展以形成第二字符串集合,所述第一字符串集合中的每一个第一字符串与所述第二字符串集合中的至少一个第二字符串对应,产生索引数据,其中在语音输入检索中,所述索引数据用来查找所述第二字符串集合中是否存在与所述语音输入对应的第二字符串;以及
在所述存储单元中存储所述第一字符串集合、所述第二字符串集合以及所述索引数据;其中
所述对所述第一字符串集合进行数据扩展以形成第二字符串集合包括:
当所述第一字符串的末尾中包含与数字对应的第一特定字符时,对所述第一字符串集合进行垂直数据扩展以形成第二字符串集合;
当所述第一字符串中包含由第二特定字符隔开的多个字符时,对所述第一字符串集合进行水平数据扩展以形成第二字符串集合。
8.如权利要求7所述的信息处理方法,其中在对所述第一字符串集合进行数据扩展的步骤进一步包括:
基于所述第一字符串的内容确定具有相关内容的至少一个第二字符串。
9.如权利要求8所述的信息处理方法,其中,通过对所述第二字符串集合中的每一个第二字符串进行字音标准化处理,并且基于所述字音标准化处理的结果产生所述索引数据,在对第二字符串集合中的每一个第二字符串进行字音标准化并基于所述字音标准化处理的结果产生索引数据的步骤进一步包括:
将所述第二字符串集合中的每一个第二字符串中的不发音字符排除以产生第三字符串;
如果所述第三字符串中存在数字字符,则将所述第三字符串中的数字字符标准化为同一类型的数字字符;以及
基于音素或拼音将所述第三字符串划分为多个音素字符或拼音字符,并且基于所述音素字符或拼音字符产生索引数据。
10.如权利要求9所述的信息处理方法,其中
所述索引数据包括所述音素字符或所述拼音字符与所述第二字符串集合中的第二字符串的关联的信息。
11.如权利要求7所述的信息处理方法,进一步包括:
在语音输入检索期间,将所述语音输入转换为第一输入字符串,并且对所述第一输入字符串进行字音标准化处理以产生第二输入字符串作为输入数据,并且存储所述输入数据。
12.如权利要求11所述的信息处理方法,进一步包括:
将基于第二输入字符串检索所述索引数据来查找所述第二字符串集合中是否存在与所述语音输入对应的第二字符串。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410319260.5A CN104063500B (zh) | 2014-07-07 | 2014-07-07 | 信息处理设备以及信息处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410319260.5A CN104063500B (zh) | 2014-07-07 | 2014-07-07 | 信息处理设备以及信息处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104063500A CN104063500A (zh) | 2014-09-24 |
CN104063500B true CN104063500B (zh) | 2019-03-29 |
Family
ID=51551214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410319260.5A Active CN104063500B (zh) | 2014-07-07 | 2014-07-07 | 信息处理设备以及信息处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104063500B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107870919A (zh) * | 2016-09-23 | 2018-04-03 | 伊姆西Ip控股有限责任公司 | 管理索引的方法和设备 |
CN113095325B (zh) * | 2021-05-11 | 2021-11-09 | 浙江华是科技股份有限公司 | 一种船舶识别方法、装置及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101246478A (zh) * | 2007-02-14 | 2008-08-20 | 高德软件有限公司 | 信息存储及检索方法 |
CN101329680A (zh) * | 2008-07-17 | 2008-12-24 | 安徽科大讯飞信息科技股份有限公司 | 句子层面的大规模快速匹配方法 |
CN103440865A (zh) * | 2013-08-06 | 2013-12-11 | 普强信息技术(北京)有限公司 | 语音识别的后处理方法 |
CN103885662A (zh) * | 2012-12-20 | 2014-06-25 | 联想(北京)有限公司 | 辅助语音输入的方法和装置 |
-
2014
- 2014-07-07 CN CN201410319260.5A patent/CN104063500B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101246478A (zh) * | 2007-02-14 | 2008-08-20 | 高德软件有限公司 | 信息存储及检索方法 |
CN101329680A (zh) * | 2008-07-17 | 2008-12-24 | 安徽科大讯飞信息科技股份有限公司 | 句子层面的大规模快速匹配方法 |
CN103885662A (zh) * | 2012-12-20 | 2014-06-25 | 联想(北京)有限公司 | 辅助语音输入的方法和装置 |
CN103440865A (zh) * | 2013-08-06 | 2013-12-11 | 普强信息技术(北京)有限公司 | 语音识别的后处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104063500A (zh) | 2014-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10719507B2 (en) | System and method for natural language processing | |
US20190370398A1 (en) | Method and apparatus for searching historical data | |
CN110955764B (zh) | 场景知识图谱的生成方法、人机对话方法以及相关设备 | |
CN101183281B (zh) | 一种输入法中候选词的相关词输入的方法及系统 | |
CN106528532A (zh) | 文本纠错方法、装置及终端 | |
CN102479191A (zh) | 提供多粒度分词结果的方法及其装置 | |
US20180173694A1 (en) | Methods and computer systems for named entity verification, named entity verification model training, and phrase expansion | |
US8356065B2 (en) | Similar text search method, similar text search system, and similar text search program | |
CN110597994A (zh) | 事件元素识别方法和装置 | |
CN105206274A (zh) | 一种语音识别的后处理方法及装置和语音识别系统 | |
CN102662935A (zh) | 一种交互式的机器翻译方法和机器翻译系统 | |
CN103092928B (zh) | 语音查询方法及系统 | |
CN102968987A (zh) | 一种语音识别方法及系统 | |
JP2022050379A (ja) | 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
TW201606750A (zh) | 使用外國字文法的語音辨識 | |
CN103500579A (zh) | 语音识别方法、装置及系统 | |
WO2023024975A1 (zh) | 文本处理方法、装置和电子设备 | |
KR102639979B1 (ko) | 주요 키워드 추출 장치, 그것의 제어 방법 및 주요 키워드 추출 프로그램 | |
CN110164416B (zh) | 一种语音识别方法及其装置、设备和存储介质 | |
CN105808197A (zh) | 一种信息处理方法和电子设备 | |
CN111126061A (zh) | 对联信息生成方法和装置 | |
CN103970815A (zh) | 语音输入和输出数据库搜索方法和设备 | |
CN114444462B (zh) | 模型训练方法及人机交互方法、装置 | |
CN105677722A (zh) | 社交软件中推荐好友的方法和装置 | |
US20130024403A1 (en) | Automatically induced class based shrinkage features for text classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |