CN105095509A - 语音搜索方法及装置 - Google Patents

语音搜索方法及装置 Download PDF

Info

Publication number
CN105095509A
CN105095509A CN201510561380.0A CN201510561380A CN105095509A CN 105095509 A CN105095509 A CN 105095509A CN 201510561380 A CN201510561380 A CN 201510561380A CN 105095509 A CN105095509 A CN 105095509A
Authority
CN
China
Prior art keywords
phonetic entry
user
phonetic
voice
entry button
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510561380.0A
Other languages
English (en)
Other versions
CN105095509B (zh
Inventor
祖明
王俊婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510561380.0A priority Critical patent/CN105095509B/zh
Publication of CN105095509A publication Critical patent/CN105095509A/zh
Application granted granted Critical
Publication of CN105095509B publication Critical patent/CN105095509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种语音搜索方法及装置,该方法包括:提供语音搜索界面,其中,语音搜索界面包括:多种语言的语音输入按键;接收用户通过触发至少一个语音输入按键输入的语音数据,并应用与语音输入按键对应的语言标识标记语音数据。本发明实施例的语音搜索方法及装置,实现了同一输入搜索语音中包含多种语言的语音输入,实现了多种语言的单独或者混合的语音输入,满足了用户的多语言混合输入需求。

Description

语音搜索方法及装置
技术领域
本发明涉及搜索技术领域,特别涉及一种语音搜索方法及装置。
背景技术
搜索引擎(SearchEngine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
目前,用户可通过文字或者语音的方式向搜索引擎输入搜索需求,搜索引擎获得搜索需求对应的搜索结果,并返回对应的搜索结果。当用户进行语音搜索时,用户需要先进入语音搜索界面,然后在语音搜索界面中输入语音(例如,用户可通过按下并按住语音搜索界面中的语音按钮的方式输入语音),搜索引擎将用户输入的语音转换为对应的文字,并获得与文字对应的搜索结果,以及向用户返回对应的搜索结果。
随着部分外文品牌概念的强化及外文口语的普及,用户出现越来越多的中外多语言混合的语音搜索需求,并且中国不同地区部分用户具备使用地方性语言搜索的需求。然而,相关的语音搜索技术仅提供一种语言的语音输入接口。在用户使用语音搜索界面进行语音输入时,如果用户在搜索语音界面中输入多语言混合的语音,搜索引擎将用户输入的语音作为整体去做识别和检索。由于整个交换过程中,搜索引擎并没有对用户输入的多语言的语音数据进行差别引导,导致搜索引擎不能准确对多语言混合的语音进行语音识别,进而导致搜索结果不准确,用户的语音搜索体验不理想。因此,在用户以语音方式进行搜索时,如何高质量的引导用户进行多语言的语音输入,对于提升整体语音搜索需求满足度至关重要。
发明内容
本发明旨在至少在一定程度上解决语音搜索相关技术中的技术问题之一。为此,本发明的目的在于提出一种语音搜索方法,该方法实现了同一输入搜索语音中包含多种语言的语音输入,实现了多种语言的单独或者混合的语音输入,满足了用户的多语言混合输入需求。
本发明的第二个目的在于提出一种语音搜索装置。
为实现上述目的,本发明第一方面实施例提出了一种语音搜索方法,包括:提供语音搜索界面,其中,所述语音搜索界面包括:多种语言的语音输入按键;接收用户通过触发至少一个语音输入按键输入的语音数据,并应用与所述语音输入按键对应的语言标识标记所述语音数据。
本发明实施例的语音搜索方法,提供多种语言的语音输入按键的语音搜索界面,接收用户通过触发至少一个语音输入按键输入的语音数据,并应用与语音输入按键对应的语言标识标记语音数据。由此,实现了同一输入搜索语音中包含多种语言的语音输入,实现了多种语言的单独或者混合的语音输入,满足了用户的多语言混合输入需求。
为实现上述目的,本发明第二方面实施例提出了一种语音搜索装置,包括:提供模块,用于提供语音搜索界面,其中,所述语音搜索界面包括:多种语言的语音输入按键;处理模块,用于接收用户通过触发至少一个语音输入按键输入的语音数据,并应用与所述语音输入按键对应的语言标识标记所述语音数据。
本发明实施例的语音搜索装置,通过提供模块提供多种语言的语音输入按键的语音搜索界面,处理模块接收用户通过触发至少一个语音输入按键输入的语音数据,并应用与语音输入按键对应的语言标识标记语音数据。由此,实现了同一输入搜索语音中包含多种语言的语音输入,实现了多种语言的单独或者混合的语音输入,满足了用户的多语言混合输入需求。
附图说明
图1是根据本发明一个实施例的语音搜索方法的流程图。
图2是包含一种语言的语音输入按键的语音搜索界面的示意图。
图3是包含两种语言的语音输入按键的语音搜索界面的示意图。
图4是包含三种语言的语音输入按键的语音搜索界面的示意图。
图5是由中文切换为方言的语音输入的示意图。
图6是根据本发明另一个实施例的语音搜索方法的流程图。
图7是根据本发明一个实施例的语音搜索装置的结构示意图。
图8是根据本发明另一个实施例的语音搜索装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的语音搜索方法及装置。
图1是根据本发明一个实施例的语音搜索方法的流程图。
如图1所示,该语音搜索方法包括:
S101,提供语音搜索界面。
具体地,在接收到语音搜索的请求后,显示包含多种语言的语音输入按键的语音搜索界面,其中,语音搜索界面中至少包含一种语言的语音输入按键。
其中,包含一种语言的语音输入按键的语音搜索界面的示意图如图2所示,图2中的语音输入按键对应的语言通常为默认语言,且与用户所在国使用的语言相同,如果当前用户为中国用户,则语音输入按键对应的语言为中文。
在语音搜索界面中包括两种语言的语音输入按键时,为了方便用户操作语音输入按键,两种语言的语音输入按键可以呈水平排列分布,还可以以其他方式排列分布。
其中,包含两种语言的语音输入按键的语音搜索界面的示意图,如图3所示,图3中的第一语音输入按键对应的语言为中文,第二语音输入按键对应的语言为英文,通过图3可以看出,第一语音输入按键与第二语音输入按键之间呈水平排列分布,且中间通过以滑动轨道链接,可触发另一种语音输入模式的开启。
另外,在语音搜索界面中包括三种语言的语音输入按键时,为了方便用户操作语音输入按键,三种语言的语音输入按键可以呈三角形分布,还可以以其他形式分布,例如,三种语言的语音输入按键呈竖直方向分布。
其中,包含三种语言的语音输入按键的语音搜索界面,如图4所示,图4中的三个语言的语音输入按键之间呈三角形分布,且第一语音输入按键对应的语言为中文,中文为默认语言,第二语音输入按键对应的语言为方言,第三语音输入按键对应的语言为英文。
在本发明的一个实施例中,为了方便设置用户语音搜索界面中显示的语音输入按键的个数,语音搜索界面上还包括设置按键,用户可通过触发该设置按键来设置语音搜索界面中具体显示几种语言的语音输入按键,也就是说,该实施例中的语音搜索界面中具体显示几种语言的语音输入按键可以由用户自定义设置,以及语言的类型也是可以由用户自主设置的。
具体地,搜索引擎接收用户对设置按键的触发操作,并根据触发操作为用户提供语音搜索设置界面,其中,语音搜索设置界面包括:与多种语言的语音输入按键分别对应的控制开关。
在显示语音搜索界面后,用户可根据需求开启或者关闭语音搜索界面中的语音输入按键,搜索引擎接收用户对控制开关的控制指令,并根据控制指令控制语音输入按键的状态。
例如,语音搜索界面上仅显示一个中文的语音输入按键,且语音搜索界面的形式如图2所示,在用户进行语音输入之前,如果用户有两种语言的语音输入需求时,假定用户需要英文,此时,用户可点击语音搜索界面右下角的设置按钮,搜索引擎接收用户对设置按键的点击操作,并将页面跳转至语音搜索设置页面,用户可触碰选择开启英文的语音输入按钮,在用户保存设置后,语音搜索界面中呈现平行横排放置的中文和Engilsh(英文)两个语音输入按钮,如图3所示。
再例如,假定用户原先设定在语音搜索界面中显示中文、方言、英文三种语音输入按键,如图4所示,如果用户不经常使用方言,此时,用户可点击语音搜索界面右下角的设置按钮,搜索引擎接收用户对设置按键的点击操作,并将页面跳转至语音搜索设置页面,语音搜索设置界面中的中文、英文、方言对应的语音输入模式均处于开启,为了关闭语音搜索界面中的方言的语音输入按键,此时,用户可将方言的语音输入模式关闭,搜索引擎接收关闭方言的语音输入模式的控制指令,此时,语音搜索界面中仅包含中文和Engilsh(英文)两个语音输入按钮,语音搜索界面的示意图如图3所示。由此可以看出,用户在设置界面的选择会直接影响语音输入界面的语音输入按钮的呈现模式和数量。
又例如,包含两种语言的语音输入按键的语音搜索界面的示意图如图3所示,且第一语音输入按键对应的语言为中文,第二语音输入按键对应的语言为英文,在用户使用语音搜索的过程中,用户可在语音搜索设置界面中设置第二语言的语言类型,若用户需要在中文与法语混合的语音输入,在输入中文与法语混合的语音之前,用户可将语音搜索设置界面中设置第二语言的语言类型改为法语,对应的语音搜索界面中将显示中文和法文的语音输入按键。
需要说明的是,语音搜索界面中除了包括多种语言的语音输入按键外,还可以显示一些其他信息,例如,语音搜索界面如图2所示,通过图2可以看出,语音搜索界面中除了显示语音输入按键外,还显示了“按住说话”的提示信息,以提示用户如何输入语音,以及语音搜索界面中还显示了一些大家都在搜的内容,方便了用户通过语音搜索界面中显示的内容直接发起搜索,以及语音搜索界面中还供用户进行自定义设定的设置按钮,以供用户进行自定义设置语音搜索界面中具体显示几种语言的语音输入按键。
S102,接收用户通过触发至少一个语音输入按键输入的语音数据,并应用与语音输入按键对应的语言标识标记语音数据。
在本发明的一个实施例中,在语音搜索界面中显示包含多种语言的语音输入按键后,用户可根据语音输入的需求选择对应语言的语音输入按键进行语音输入。
具体地,搜索引擎接收用户对任一语音输入按键执行的语音输入操作,并录入用户输入的语音数据,并应用与用户触发的语音输入按键对应的语言标识标记对应的语音数据。
其中,语音输入操作可以为按压操作,也可以为其他操作。
例如,包含两种语言的语音输入按键的语音搜索界面,如图3所示,如果用户需要英文的语音输入,用户可按住语音搜索界面中的第二语音输入按键,对应的英文的语音输入接口将被选中,此时,用户可输入英文的语音数据,为了方便后续通过对应的语言模型对英文的语音数据进行识别,搜索引擎可应用与第二语音输入按键对应的语言标识标记语音数据,即为用户输入的语音数据添加英文标识。
另外,在搜索引擎接收用户对任一语音输入按键执行的语音输入操作,并将对应的语音输入按键作为当前语音输入按键,以及录入用户输入的语音数据,并应用与当前语音输入按键对应的语言标识标记用户输入的语音数据的过程中。如果用户有混合语音输入的需求,此时,用户可根据切换语音输入按键的语音切换操作切换语音输入按键,切换语音输入按键并进行相应语音输入的具体过程为:
接收用户输入的切换语音输入按键的语音切换操作,并根据语音切换操作将当前语音输入按键切换为目标语音输入按键,以及录入用户输入的语音数据,并应用与目标语音输入按键对应的语言标识标记用户输入的语音数据。
例如,包含两种语言的语音输入按键的语音搜索界面,如图3所示,在用户录入中文的语音过程中,即在用户按住第一语音输入按键输入中文的语音数据的过程中,如果用户需要输入英文的语音,即用户有混合语音输入的需求,此时,用户可按住手指并向右滑动至第二语音输入按键,对应的第二语音输入按键被选中,此时,用户可按住第二语音输入按键,并输入英文的语音数据,搜索引擎通过英文的语音输入接口接收用户输入的语音数据,并应用与第二语音输入按键对应的语言标识标记语音数据,即为用户输入的语音数据添加英文标识。另外,在用户输入英文的语音数据后,用户还可以通过按压滑动操作切换至中文的输入模式,也就是说,在语音搜索界面中包含两种语言的语音输入按键后,用户可通过手指按压滑动来自由切换这两种语言,以进行两种语言的组合的语音输入,即完成包含两种不同语言的语音输入。
再例如,包含三种语言的语音输入按键的语音搜索界面,如图4所示,在用户输入语音的过程中,用户可通过按压滑动操作来自由切换三种语言的语音输入。具体地,在用户输入中文的语音过程中,与第一语音输入按键相连接的方言和英文的语音输入按键都呈蓝色可切换状态,用户可通过连接轨道滑动至任一相邻语音输入按钮,完成语音输入切换,以实现同一输入语音中包含多个语音模式。具体而言,如果用户手指按压滑动至第二语言输入按键后,对应的语音输入模式将被切换至方言,其中,由中文的输入模式切换为方言的输入模式的过程如图5所示,此时,搜索引擎通过方言的语音输入接口接收用户输入的方言的语音数据,并为接收到的语音数据添加方言标识。在用户将手指按压并滑动至第三语音输入按键,即英文语音输入按键时,用户可按住英文语音输入按键,并输入英文的语音数据,搜索引擎通过英文的语音输入接口接收用户输入的语音数据,并将接收到的语音数据添加英文标识。也就是说,在语音搜索界面中包含三种语言的语音输入按键后,用户可通过手指按压滑动来自由切换这三种语言,以进行三种语言的组合的语音输入。由此,实现了多种语言的语音切换输入,满足了用户的语音混合输入需求。
由此可以看出,在语音搜索界面中包含多种语言的语音输入按键时,用户可通过简单的语音输入操作和/或语音切换操作完成一种语言或者多种语言混合的语音输入。
例如,在语音搜索界面中包含中文和英文的语音输入按键时,用户可通过简单的操作实现单独的中文、英文或中英文混合的语音输入的不同语音输入方式。由此,为用户提供不同语音输入方式,满足了用户进行混合语言的语音输入的需求。
在本发明的一个实施例中,为了方便切换语言,在用户进行语音搜索的过程中,还可以获取用户的使用习惯信息,并根据使用习惯信息对语音搜索界面中多种语言的语音输入按键进行调整。具体地,可对语音搜索界面中多种语言的语音输入按键的位置进行调整。
例如,在语音搜索的过程中,如果根据用户的使用习惯信息确定用户经常使用英文进行语音输入,假定当前搜索语音界面中包含中文、方言和英文的语音输入按键,如图4所示,为了方便用户输入英文,可将第一语音输入按键对应的语言修改为英文,并将第二语音输入按键对应的语言修改为中文,并将第三语音输入按键对应的语言修改为方言,也就是说,搜索引擎可根据每种语言的语音输入按键的使用频率对语音搜索界面中的语音输入按键的位置进行调整。
在本发明的一个实施例,在用户输入混合语言的语音后,为了通过混合语言的语音输入进行搜索,并获取搜索结果。如图6所示,在步骤S102之后,还可以包括:
S103,对用户输入的多个语音数据进行汇总,其中,每个语音数据对应一个语言标识。
S104,分别调用与语言标识对应的语言模型对多个语音数据进行识别,并生成识别结果。
具体地,在多语言混合语音输入结束后,全部输入的语音数据是一个带有语言标识的片段化语音的集合,搜索引擎接收用户输入的语音数据,并根据语言标识对语音数据进行分段,并分别调用与语言标识对应的语言模型对多个语音片段进行语音识别,再根据输入顺序,将分段识别的数据组合成一个完成的识别数据。
S105,根据识别结果进行搜索,以生成搜索结果并提供至用户。
例如,假定用户通过中文与英文混合的方式输入语音,在用户切换语言,并输入对应语音的过程中,搜索引擎记录用户的切换行为,并为用户输入的语音片段标识对应语言的语言标识,假定搜索引擎获得用户输入的语音数据为:第一段语音片段为中文的语音,第二语音片段为英文的语音,搜索引擎根据语言标识对语音数据进行分段,并调用中文的语言模型将第一段语音片段转换为对应的文字,以及调用英文的语言模型将第二段语音片段转换为对应的文字,然后再根据输入顺序,将分段的识别结果组合在一起,以生成识别结果,并根据识别结果进行搜索,以获得与识别结果有关的搜索结果,并返回对应的搜索结果,满足了用户多种语言语音混合搜索的需求。
综上可以看出,在用户语音输入的过程中,搜索引擎为用户提供包含多种语言的语音输入按键,以方便用户进行单独的语音输入,或者混合语言的语音输入,在用户混合语言的语音输入的过程中,用户需求对语音输入按键进行切换,在用户切换语音输入按键并进行相应输入的过程中,搜索引擎记录用户的每个一个切换行为,并为用户输入的语音片段添加对应语言的语言标识,然后在用户完成语音输入后,搜索引擎通过语言标识对语音数据进行分段,并通过语言标识去调用对应的语言模型进行语音片段的识别,以及在识别后根据输入顺序进行组合,并根据组合后的识别结果进行信息搜索,通过语言标识标记语音片段可提高搜索引擎对包含多种语言语音的搜索请求的识别准确率,满足了用户多种语言混合语音搜索的需求。
本发明实施例的语音搜索方法,提供多种语言的语音输入按键的语音搜索界面,接收用户通过触发至少一个语音输入按键输入的语音数据,并应用与语音输入按键对应的语言标识标记语音数据。由此,实现了同一输入搜索语音中包含多种语言的语音输入,实现了多种语言的单独或者混合的语音输入,满足了用户的多语言混合输入需求。
为了实现上述实施例,本发明还提出一种语音搜索装置。
图7是根据本发明一个实施例的语音搜索装置的结构示意图。
如图7所示,该语音搜索装置包括提供模块100和处理模块200,其中:
提供模块100用于提供语音搜索界面,其中,语音搜索界面包括:多种语言的语音输入按键;处理模块200用于接收用户通过触发至少一个语音输入按键输入的语音数据,并应用与语音输入按键对应的语言标识标记语音数据。
其中,包含一种语言的语音输入按键的语音搜索界面的示意图如图2所示,图2中的语音输入按键对应的语言通常为默认语言,且与用户所在国使用的语言相同,如果用户为中国用户,则语音输入按键对应的语言为中文。
在提供模块100提供的语音搜索界面中包括两种语言的语音输入按键时,为了方便用户操作语音输入按键,两种语言的语音输入按键可以呈水平排列分布,还可以以其他方式排列分布。
其中,包含两种语言的语音输入按键的语音搜索界面的示意图如图3所示,图3中的第一语音输入按键对应的语言为中文,第二语音输入按键对应的语言为英文,通过图3可以看出,第一语音输入按键与第二语音输入按键之间呈水平排列分布,且中间通过以滑动轨道链接,可触发另一种语音输入模式的开启。
另外,在提供模块100提供的语音搜索界面中包括三种语言的语音输入按键时,为了方便用户操作语音输入按键,三种语言的语音输入按键可以呈三角形分布,还可以以其他形式分布,例如,三种语言的语音输入按键呈竖直方向分布。
其中,包含三种语言的语音输入按键的语音搜索界面,如图4所示,图4中的三个语言的语音输入按键之间呈三角形分布,且第一语音输入按键对应的语言为中文,中文为默认语言,第二语音输入按键对应的语言为方言,第二语音输入按键对应的语言为英文。
在本发明的一个实施例中,为了方便设置用户语音搜索界面中显示的语音输入按键的个数,语音搜索界面上还包括设置按键,如图8所示,上述装置还可以包括设置模块300,该设置模块300用于接收用户对设置按键的触发操作,并根据触发操作为用户提供语音搜索设置界面,其中,语音搜索设置界面包括:与多种语言的语音输入按键分别对应的控制开关,以及接收用户对控制开关的控制指令,并根据控制指令控制语音输入按键的状态。
通过设置模块300用户自由设置语音搜索界面中具体显示几种语言的语音输入按键,也就是说,该实施例中的语音搜索界面中具体显示几种语言的语音输入按键可以由用户自定义设置,以及语言的类型也是可以由用户自主设置的。
例如,语音搜索界面上仅显示一个中文的语音输入按键,且语音搜索界面的形式如图2所示,在用户进行语音输入之前,如果用户有两种语言的语音输入需求时,假定用户需要英文,此时,用户可点击语音搜索界面右下角的设置按钮,设置模块300接收用户对设置按键的点击操作,并将页面跳转至语音搜索设置页面,用户可触碰选择开启英文的语音输入按钮,在用户保存设置后,语音搜索界面中呈现平行横排放置的中文和Engilsh(英文)两个语音输入按钮,如图3所示。
具体地,处理模块200具体用于:接收用户对任一语音输入按键执行的语音输入操作,并录入用户输入的语音数据,并应用与用户触发的语音输入按键对应的语言标识标记对应的语音数据。
其中,语音输入操作可以为按压操作,也可以为其他操作。
例如,包含两种语言的语音输入按键的语音搜索界面,如图3所示,如果用户需要英文的语音输入,用户可按住语音搜索界面中的第二语音输入按键,处理模块200接收用户的按压操作,并对应的英文的语音输入接口将被选中,此时,用户可输入的英文的语音数据,为了方便后续通过对应的语言模型对英文的语音数据进行识别,处理模块200还可应用与第二语音输入按键对应的语言标识标记语音数据,即为用户输入的语音数据添加英文标识。
另外,在本发明的一个实施例中,处理模块200具体用于:接收用户对任一语音输入按键执行的语音输入操作,并将对应的语音输入按键作为当前语音输入按键,以及录入用户输入的语音数据,并应用与当前语音输入按键对应的语言标识标记用户输入的语音数据,以及接收用户输入的切换语音输入按键的语音切换操作,并根据语音切换操作将当前语音输入按键切换为目标语音输入按键,并录入用户输入的语音数据,并应用与目标语音输入按键对应的语言标识标记用户输入的语音数据。
例如,包含两种语言的语音输入按键的语音搜索界面,如图3所示,在用户录入中文的语音过程中,即,在用户按住第一语音输入按键输入中文的语音数据的过程中,如果用户需要输入英文的语音,即用户有混合语音输入的需求,此时,用户可按住手指并向右滑动至第二语音输入按键,处理模块接收用户输入的语音切换操作,并将第二语音输入按键选中,此时,用户可按住第二语音输入按键,并输入英文的语音数据,处理模块200可通过英文的语音输入接口接收用户输入的语音数据,并应用与第二语音输入按键对应的语言标识标记语音数据,即为用户输入的语音数据添加英文标识。另外,在用户输入英文的语音数据后,用户还可以通过按压滑动操作切换至中文的输入模式,也就是说,在语音搜索界面中包含两种语言的语音输入按键后,用户可通过手指按压滑动来自由切换这两种语言,以进行两种语言的组合的语音输入,即完成包含两种不同语言的语音输入。
另外,为了准确识别用户输入的语音数据,以及获得语音数据对应的搜索结果,如图8所示,上述装置还可以包括汇总模块400、识别模块500和搜索模块600,其中:
汇总模块400用于对用户输入的多个语音数据进行汇总,其中,每个语音数据对应一个语言标识;识别模块500用于分别调用与语言标识对应的语言模型对多个语音段进行识别,并生成识别结果;以及搜索模块600用于根据识别结果进行搜索,以生成搜索结果并提供至用户。
例如,假定用户通过中文与英文混合的方式输入语音,在用户切换语言,并输入对应语音的过程中,汇总模块400可记录用户的切换行为,并为用户输入的语音片段标识对应语言的语言标识,假定用户输入的语音数据为:第一段语音片段为中文的语音,第二语音片段为英文的语音,识别模块500根据语言标识对语音数据进行分段,并调用中文的语言模型将第一段语音片段转换为对应的文字,以及调用英文的语言模型将第二段语音片段转换为对应的文字,然后再根据输入顺序,将分段的识别结果组合在一起,以生成识别结果,以及搜索模块600根据组合后的识别结果进行搜索,以获得与识别结果有关的搜索结果,并返回对应的搜索结果,满足了用户多种语言语音混合搜索的需求。
另外,如图8所示,上述装置还可以包括调整模块700,该调整模块700用于获取用户的使用习惯信息,并根据使用习惯信息对多种语言的语音输入按键进行调整。具体而言,调整模块700可对语音搜索界面中多种语言的语音输入按键的位置进行调整。
例如,在语音搜索的过程中,如果根据用户的使用习惯信息确定用户经常使用英文进行语音输入,假定当前搜索语音界面中包含中文、方言和英文的语音输入按键,如图4所示,为了方便用户输入英文,调整模块700可将第一语音输入按键对应的语言修改为英文,并将第二语音输入按键对应的语言修改为中文,并将第三语音输入按键对应的语言修改为方言。
需要说明的是,前述对语音搜索方法实施例的解释说明也适用于该实施例的语音搜索装置,此处不再赘述。
本发明实施例的语音搜索装置,通过提供模块提供多种语言的语音输入按键的语音搜索界面,处理模块接收用户通过触发至少一个语音输入按键输入的语音数据,并应用与语音输入按键对应的语言标识标记语音数据。由此,实现了同一输入搜索语音中包含多种语言的语音输入,实现了多种语言的单独或者混合的语音输入,满足了用户的多语言混合输入需求。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (16)

1.一种语音搜索方法,其特征在于,包括以下步骤:
提供语音搜索界面,其中,所述语音搜索界面包括:多种语言的语音输入按键;
接收用户通过触发至少一个语音输入按键输入的语音数据,并应用与所述语音输入按键对应的语言标识标记所述语音数据。
2.如权利要求1所述的语音搜索方法,其特征在于,所述接收用户通过触发至少一个语音输入按键输入的语音数据,并应用与所述语音输入按键对应的语言标识标记所述语音数据,具体包括:
接收所述用户对任一语音输入按键执行的语音输入操作,并录入所述用户输入的语音数据,并应用与所述用户触发的语音输入按键对应的语言标识标记对应的语音数据。
3.如权利要求1所述的语音搜索方法,其特征在于,所述接收用户通过触发至少一个语音输入按键输入的语音数据,并应用与所述语音输入按键对应的语言标识标记所述语音数据,具体包括:
接收所述用户对任一语音输入按键执行的语音输入操作,并将对应的语音输入按键作为当前语音输入按键,以及录入所述用户输入的语音数据,并应用与所述当前语音输入按键对应的语言标识标记所述用户输入的语音数据,以及
接收所述用户输入的切换语音输入按键的语音切换操作,并根据所述语音切换操作将所述当前语音输入按键切换为目标语音输入按键,并录入所述用户输入的语音数据,并应用与所述目标语音输入按键对应的语言标识标记所述用户输入的语音数据。
4.如权利要求1所述的语音搜索方法,其特征在于,其中,所述语音搜索界面还包括设置按键,还包括:
接收所述用户对所述设置按键的触发操作;
根据所述触发操作提供语音搜索设置界面,其中,所述语音搜索设置界面包括:与多种语言的语音输入按键分别对应的控制开关;
接收所述用户对所述控制开关的控制指令;以及
根据所述控制指令控制语音输入按键的状态。
5.如权利要求1所述的语音搜索方法,其特征在于,当所述语音搜索界面包括两种语言的语音输入按键时,所述两种语言的语音输入按键之间呈水平排列分布。
6.如权利要求1所述的语音搜索方法,其特征在于,当所述语音搜索界面包括三种语言的语音输入按键时,所述三种语言的语音输入按键之间呈三角形分布。
7.如权利要求1所述的语音搜索方法,其特征在于,还包括:
对所述用户输入的多个语音数据进行汇总,其中,每个语音数据对应一个语言标识;
分别调用与所述语言标识对应的语言模型对所述多个语音数据进行识别,并生成识别结果;以及
根据所述识别结果进行搜索,以生成搜索结果并提供至所述用户。
8.如权利要求1所述的语音搜索方法,其特征在于,还包括:
获取用户的使用习惯信息;以及
根据所述使用习惯信息对所述多种语言的语音输入按键进行调整。
9.一种语音搜索装置,其特征在于,包括:
提供模块,用于提供语音搜索界面,其中,所述语音搜索界面包括:多种语言的语音输入按键;
处理模块,用于接收用户通过触发至少一个语音输入按键输入的语音数据,并应用与所述语音输入按键对应的语言标识标记所述语音数据。
10.如权利要求9所述的语音搜索装置,其特征在于,所述处理模块,具体用于:
接收所述用户对任一语音输入按键执行的语音输入操作,并录入所述用户输入的语音数据,并应用与所述用户触发的语音输入按键对应的语言标识标记对应的语音数据。
11.如权利要求9所述的语音搜索装置,其特征在于,所述处理模块,具体用于:
接收所述用户对任一语音输入按键执行的语音输入操作,并将对应的语音输入按键作为当前语音输入按键,以及录入所述用户输入的语音数据,并应用与所述当前语音输入按键对应的语言标识标记所述用户输入的语音数据,以及
接收所述用户输入的切换语音输入按键的语音切换操作,并根据所述语音切换操作将所述当前语音输入按键切换为目标语音输入按键,并录入所述用户输入的语音数据,并应用与所述目标语音输入按键对应的语言标识标记所述用户输入的语音数据。
12.如权利要求9所述的语音搜索装置,其特征在于,其中,所述语音搜索界面还包括设置按键,还包括:
设置模块,用于接收所述用户对所述设置按键的触发操作,并根据所述触发操作提供语音搜索设置界面,其中,所述语音搜索设置界面包括:与多种语言的语音输入按键分别对应的控制开关,以及接收所述用户对所述控制开关的控制指令,并根据所述控制指令控制语音输入按键的状态。
13.如权利要求9所述的语音搜索装置,其特征在于,当所述语音搜索界面包括两种语言的语音输入按键时,所述两种语言的语音输入按键之间呈水平排列分布。
14.如权利要求9所述的语音搜索装置,其特征在于,当所述语音搜索界面包括三种语言的语音输入按键时,所述三种语言的语音输入按键之间呈三角形分布。
15.如权利要求9所述的语音搜索装置,其特征在于,还包括:
汇总模块,用于对所述用户输入的多个语音数据进行汇总,其中,每个语音数据对应一个语言标识;
识别模块,用于分别调用与所述语言标识对应的语言模型对所述多个语音数据进行识别,并生成识别结果;以及
搜索模块,用于根据所述识别结果进行搜索,以生成搜索结果并提供至所述用户。
16.如权利要求9所述的语音搜索装置,其特征在于,还包括:
调整模块,用于获取用户的使用习惯信息,以及根据所述使用习惯信息对所述多种语言的语音输入按键进行调整。
CN201510561380.0A 2015-09-06 2015-09-06 语音搜索方法及装置 Active CN105095509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510561380.0A CN105095509B (zh) 2015-09-06 2015-09-06 语音搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510561380.0A CN105095509B (zh) 2015-09-06 2015-09-06 语音搜索方法及装置

Publications (2)

Publication Number Publication Date
CN105095509A true CN105095509A (zh) 2015-11-25
CN105095509B CN105095509B (zh) 2019-01-25

Family

ID=54575944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510561380.0A Active CN105095509B (zh) 2015-09-06 2015-09-06 语音搜索方法及装置

Country Status (1)

Country Link
CN (1) CN105095509B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107610696A (zh) * 2017-08-09 2018-01-19 上海斐讯数据通信技术有限公司 基于用户输入的对话消息的路由器控制方法及路由器
CN110010131A (zh) * 2019-04-04 2019-07-12 深圳市语芯维电子有限公司 一种语音信息处理的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1526132A (zh) * 2000-10-10 2004-09-01 ض� 基于语音的不受语言限制的搜索系统
CN1731511A (zh) * 2004-08-06 2006-02-08 摩托罗拉公司 用于对多语言的姓名进行语音识别的方法和系统
CN103020098A (zh) * 2012-07-11 2013-04-03 腾讯科技(深圳)有限公司 提供具有语音识别功能的导航业务的搜索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1526132A (zh) * 2000-10-10 2004-09-01 ض� 基于语音的不受语言限制的搜索系统
CN1731511A (zh) * 2004-08-06 2006-02-08 摩托罗拉公司 用于对多语言的姓名进行语音识别的方法和系统
CN103020098A (zh) * 2012-07-11 2013-04-03 腾讯科技(深圳)有限公司 提供具有语音识别功能的导航业务的搜索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107610696A (zh) * 2017-08-09 2018-01-19 上海斐讯数据通信技术有限公司 基于用户输入的对话消息的路由器控制方法及路由器
CN110010131A (zh) * 2019-04-04 2019-07-12 深圳市语芯维电子有限公司 一种语音信息处理的方法和装置

Also Published As

Publication number Publication date
CN105095509B (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN106997762A (zh) 家用电器的语音控制方法以及装置
CN100570545C (zh) 表情输入方法及装置
CN107025037B (zh) 一种智能设备的控制方法及装置
CN105659194B (zh) 用于屏幕上键盘的快速任务
KR102115926B1 (ko) 애플리케이션의 음성 제어 시스템 및 애플리케이션의 음성 제어 방법
CN104133561B (zh) 基于输入法的辅助信息展现方法和装置
CN102132242A (zh) 用户界面生成装置
CN104090871A (zh) 图像翻译方法及系统
CN107894852A (zh) 一种键盘切换方法及电子设备
CN108804158A (zh) 应用程序调用方法、终端设备的控制方法、终端设备及计算机可读存储介质
CN112286485B (zh) 通过语音控制应用的方法、装置、电子设备与存储介质
CN108897869A (zh) 语料标注方法、装置、设备和存储介质
US11119735B1 (en) Universal hybrid programming environment
CN103533448A (zh) 智能电视的光标控制方法和光标控制装置
CN110275704A (zh) 页面数据处理方法和装置,存储介质和电子设备
CN105446489A (zh) 语音双模控制方法、装置及用户终端
CN106933811A (zh) 一种词条自动生成方法和装置
CN105512112A (zh) 提供翻译的方法和装置
CN105095509A (zh) 语音搜索方法及装置
CN105117452A (zh) 移动端反馈信息的输入方法和系统
CN103576947B (zh) 用于触摸屏设备的信息处理方法、装置和触摸屏设备
CN102118566A (zh) 一种具有软件预监功能的字幕播出系统
CN109213551A (zh) 一种用户界面处理方法及装置
CN103176742A (zh) 应用程序操作指导方法及其终端
CN102981693A (zh) 一种多语言手写输入方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant