CN104267922B - 一种信息处理方法及电子设备 - Google Patents

一种信息处理方法及电子设备 Download PDF

Info

Publication number
CN104267922B
CN104267922B CN201410472161.0A CN201410472161A CN104267922B CN 104267922 B CN104267922 B CN 104267922B CN 201410472161 A CN201410472161 A CN 201410472161A CN 104267922 B CN104267922 B CN 104267922B
Authority
CN
China
Prior art keywords
voice messaging
voice
acquisition mode
input
input information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410472161.0A
Other languages
English (en)
Other versions
CN104267922A (zh
Inventor
戴海生
王哲鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201410472161.0A priority Critical patent/CN104267922B/zh
Publication of CN104267922A publication Critical patent/CN104267922A/zh
Priority to US14/638,281 priority patent/US10699712B2/en
Application granted granted Critical
Publication of CN104267922B publication Critical patent/CN104267922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种信息处理方法,用于解决语音输入方式对语音的识别效果较差的技术问题。所述方法包括:在所述电子设备处于语音采集状态时,获得通过第二采集方式采集的输入信息;根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置,以将采集所述输入信息的时刻作为采集所述第一语音信息的起始时刻,或作为采集所述第一语音信息的结束时刻。本发明还公开了相应的电子设备。

Description

一种信息处理方法及电子设备
技术领域
本发明涉及计算机技术领域,特别涉及一种信息处理方法及电子设备。
背景技术
随着科学技术的不断发展,电子技术也得到了飞速的发展,电子产品的种类也越来越多,人们也享受到了科技发展带来的各种便利。现在人们可以通过各种类型的电子设备享受随着科技发展带来的舒适生活。比如,手机等电子设备已经成为人们生活中一个不可或缺的部分,人们可以通过手机等电子设备以打电话、发短信等等方式加强与其他人之间的联系。
现有技术中,语音输入方式较为自然,而且比较高效,使用的也较为广泛。但语音输入方式本身并不完备,用户通常会通过语音输入方式输入多个语句,一般情况下,电子设备会以用户停顿时间较长的位置作为两个语句之间的交点。但用户有时在说一句话时,可能因为没有思考完善等因素,中途也会有停顿,如果停顿时间过长,电子设备就会认为用户输入上句话已完毕,从而将本身是一句话的内容分割为两句甚至多句话,这样,在对语音输入的内容进行识别后,由于可能将一句话分割开来,可能会导致原来的意思出现了偏差,无法正确理解原义。
可见,现有的语音输入方式对语音的识别效果较差,可能会导致语义出现偏差。
发明内容
本发明实施例提供一种信息处理方法及电子设备,用于解决语音输入方式对语音的识别效果较差的技术问题。
一种信息处理方法,所述方法应用于电子设备,包括以下步骤:
在所述电子设备处于语音采集状态时,获得通过第二采集方式采集的输入信息;
根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置,以将采集所述输入信息的时刻作为采集所述第一语音信息的起始时刻,或作为采集所述第一语音信息的结束时刻;
其中,所述第一语音信息为通过第一采集方式采集的,所述第一采集方式与所述第二采集方式不同,通过所述第一采集方式能够按照时间顺序采集多个语音信息,每个语音信息能转换为由字符串构成的字符信息;所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,或是指所述第一语音信息与通过所述第一采集方式采集的第二语音信息的逻辑分界位置,所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,或所述第二语音信息为按照时间顺序在所述第一语音信息之前最后一个采集的语音信息。
可选的,若所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,或所述逻辑边界位置是指所述第一语音信息与所述第二语音信息的逻辑分界位置,且所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,则,在根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置之后,还包括:
对所述第一语音信息进行语音识别,以将所述第一语音信息转换为第一字符信息。
可选的,若所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,则,在获得通过第二采集方式采集的输入信息之后,还包括:确定所述输入信息在编辑界面所对应的显示位置;其中,所述编辑界面为所述第一采集方式和所述第二采集方式所针对的输入显示界面;
在对所述第一语音信息进行语音识别,以将所述第一语音信息转换为第一字符信息之后,还包括:从第一显示位置开始将所述第一字符信息显示在所述编辑界面中;其中,所述第一显示位置为所述输入信息在所述编辑界面中对应的显示位置。
可选的,若所述逻辑边界位置是指所述第一语音信息与所述第二语音信息的逻辑分界位置,且所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,则,在根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置之后,还包括:
对所述输入信息进行识别,以将所述输入信息转换为第二字符信息;
通过所述逻辑边界位置,将所述第一字符信息和所述第二字符信息组成第三字符信息。
可选的,在获得通过第二采集方式采集的输入信息之后,还包括:确定所述输入信息在编辑界面所对应的显示位置;其中,所述编辑界面为所述第一采集方式和所述第二采集方式所针对的输入显示界面;
在通过所述逻辑边界位置,将所述第一字符信息和所述第二字符信息组成第三字符信息之后,还包括:将所述第三字符信息显示在所述编辑界面中,且在显示所述第三字符信息时,所述第一字符信息位于所述第二字符信息之前;其中,所述第二字符信息在所述编辑界面中是从第一显示位置开始显示的,所述第一显示位置为所述输入信息在所述编辑界面中对应的显示位置。
可选的,若所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,或是指所述第一语音信息与所述第二语音信息的逻辑分界位置,且所述第二语音信息为按照时间顺序在所述第一语音信息之前最后一个采集的语音信息,则,在根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置之后,还包括:
根据所述逻辑边界位置,生成特定指令;
执行所述特定指令,对输入的语音信息进行相应处理。
可选的,根据所述逻辑边界位置,生成特定指令,包括:根据所述逻辑边界位置,生成语音采集指令;
执行所述特定指令,对输入的语音信息进行相应处理,包括:执行所述语音采集指令,确定从所述逻辑边界位置处启动语音采集功能,以采集输入的语音信息。
可选的,在获得通过第二采集方式采集的输入信息之前,或,在根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置之前,还包括:
通过所述第一采集方式采集所述第一语音信息。
可选的,若是在获得通过第二采集方式采集的输入信息之前,通过所述第一采集方式采集所述第一语音信息,则:
在通过所述第一采集方式采集所述第一语音信息之后,还包括:若到达第一时长时未采集到所述输入信息,则对所述第一语音信息进行特定处理,其中,所述第一时长的起始时刻为采集所述第一语音信息的结束时刻;或
所述获得通过第二采集方式采集的输入信息,包括:在到达第二时长时,获得通过所述第二采集方式采集的所述输入信息;其中,所述第二时长的起始时刻为采集所述第一语音信息的结束时刻,所述第二时长小于所述第一时长;
在获得通过所述第二采集方式采集的所述输入信息之后,还包括:对所述第一语音信息进行所述特定处理。
一种电子设备,包括:
获取模块,用于在所述电子设备处于语音采集状态时,获得通过第二采集方式采集的输入信息;
第一确定模块,用于根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置,以将采集所述输入信息的时刻作为采集所述第一语音信息的起始时刻,或作为采集所述第一语音信息的结束时刻;
其中,所述第一语音信息为通过第一采集方式采集的,所述第一采集方式与所述第二采集方式不同,通过所述第一采集方式能够按照时间顺序采集多个语音信息,每个语音信息能转换为由字符串构成的字符信息;所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,或是指所述第一语音信息与通过所述第一采集方式采集的第二语音信息的逻辑分界位置,所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,或所述第二语音信息为按照时间顺序在所述第一语音信息之前最后一个采集的语音信息。
可选的,所述电子设备还包括识别模块;
若所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,或所述逻辑边界位置是指所述第一语音信息与所述第二语音信息的逻辑分界位置,且所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,则所述识别模块用于:对所述第一语音信息进行语音识别,以将所述第一语音信息转换为第一字符信息。
可选的,所述电子设备还包括第二确定模块和操作模块;
若所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,则所述第二确定模块用于:在所述获取模块获得通过第二采集方式采集的输入信息之后,确定所述输入信息在编辑界面所对应的显示位置;其中,所述编辑界面为所述第一采集方式和所述第二采集方式所针对的输入显示界面;
所述操作模块用于:在所述识别模块对所述第一语音信息进行语音识别,以将所述第一语音信息转换为第一字符信息之后,从第一显示位置开始将所述第一字符信息显示在所述编辑界面中;其中,所述第一显示位置为所述输入信息在所述编辑界面中对应的显示位置。
可选的,所述电子设备还包括组合模块;
若所述逻辑边界位置是指所述第一语音信息与所述第二语音信息的逻辑分界位置,且所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,则所述识别模块还用于:在所述第一确定模块根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置之后,对所述输入信息进行识别,以将所述输入信息转换为第二字符信息;
所述组合模块用于:通过所述逻辑边界位置,将所述第一字符信息和所述第二字符信息组成第三字符信息。
可选的,所述电子设备还包括第二确定模块和操作模块;
所述第二确定模块用于:在所述获取模块获得通过第二采集方式采集的输入信息之后,确定所述输入信息在编辑界面所对应的显示位置;其中,所述编辑界面为所述第一采集方式和所述第二采集方式所针对的输入显示界面;
所述操作模块用于:在所述组合模块通过所述逻辑边界位置,将所述第一字符信息和所述第二字符信息组成第三字符信息之后,将所述第三字符信息显示在所述编辑界面中,且在显示所述第三字符信息时,所述第一字符信息位于所述第二字符信息之前;其中,所述第二字符信息在所述编辑界面中是从第一显示位置开始显示的,所述第一显示位置为所述输入信息在所述编辑界面中对应的显示位置。
可选的,所述电子设备还包括生成模块和执行模块;若所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,或是指所述第一语音信息与所述第二语音信息的逻辑分界位置,且所述第二语音信息为按照时间顺序在所述第一语音信息之前最后一个采集的语音信息,则:
所述生成模块用于在所述第一确定模块根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置之后,根据所述逻辑边界位置,生成特定指令;
所述执行模块用于执行所述特定指令,对输入的语音信息进行相应处理。
可选的,所述生成模块具体用于:根据所述逻辑边界位置,生成语音采集指令;
所述执行模块具体用于:执行所述语音采集指令,确定从所述逻辑边界位置处启动语音采集功能,以采集输入的语音信息。
可选的,所述获取模块还用于:在所述获取模块获得通过第二采集方式采集的输入信息之前,或,在所述第一确定模块根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置之前,通过所述第一采集方式采集所述第一语音信息。
可选的,所述电子设备还包括处理模块;若是在获得通过第二采集方式采集的输入信息之前,通过所述第一采集方式采集所述第一语音信息,则:
所述处理模块用于:在所述获取模块通过所述第一采集方式采集所述第一语音信息之后,若到达第一时长时未采集到所述输入信息,则对所述第一语音信息进行特定处理,其中,所述第一时长的起始时刻为采集所述第一语音信息的结束时刻;或
所述获取模块用于获得通过第二采集方式采集的输入信息,具体为:在到达第二时长时,获得通过所述第二采集方式采集的所述输入信息;其中,所述第二时长的起始时刻为采集所述第一语音信息的结束时刻,所述第二时长小于所述第一时长;
所述处理模块用于:在所述获取模块获得通过所述第二采集方式采集的所述输入信息之后,对所述第一语音信息进行所述特定处理。
本发明实施例中,在所述电子设备处于所述语音采集状态时可以通过第一采集方式采集语音信息,同时,所述电子设备还可以通过第二采集方式采集所述输入信息,并可以根据所述输入信息来确定采集的第一语音信息对应的逻辑边界位置,这样,电子设备会根据额外的输入信息来确定用户输入的语音信息的逻辑分界点,用户在说一句话时,即使中途停顿时间的过长,电子设备也不会认为用户输入上句话已完毕,而是会一直等待,直到接收到输入信息才会根据输入信息确定用户输入的语音的分界点,从而避免将本身是一句话的内容分割为两句甚至多句话,尽量避免在解析语音时导致解析出的语义出现偏差,有利于用户正确理解原义,提高语义识别的准确性。
附图说明
图1为本发明实施例中信息处理方法的主要流程图;
图2为本发明实施例中第一字符信息的显示示意图;
图3为本发明实施例中第三字符信息的显示示意图;
图4为本发明实施例中电子设备的主要结构框图。
具体实施方式
本发明实施例提供一种信息处理方法,所述方法可以应用于电子设备,所述方法可以包括:在所述电子设备处于语音采集状态时,获得通过第二采集方式采集的输入信息;根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置,以将采集所述输入信息的时刻作为采集所述第一语音信息的起始时刻,或作为采集所述第一语音信息的结束时刻;其中,所述第一语音信息为通过第一采集方式采集的,所述第一采集方式与所述第二采集方式不同,通过所述第一采集方式能够按照时间顺序采集多个语音信息,每个语音信息能转换为由字符串构成的字符信息;所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,或是指所述第一语音信息与通过所述第一采集方式采集的第二语音信息的逻辑分界位置,所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,或所述第二语音信息为按照时间顺序在所述第一语音信息之前最后一个采集的语音信息。
本发明实施例中,在所述电子设备处于所述语音采集状态时可以通过第一采集方式采集语音信息,同时,所述电子设备还可以通过第二采集方式采集所述输入信息,并可以根据所述输入信息来确定采集的第一语音信息对应的逻辑边界位置,这样,电子设备会根据额外的输入信息来确定用户输入的语音信息的逻辑分界点,用户在说一句话时,即使中途停顿时间的过长,电子设备也不会认为用户输入上句话已完毕,而是会一直等待,直到接收到输入信息才会根据输入信息确定用户输入的语音的分界点,从而避免将本身是一句话的内容分割为两句甚至多句话,尽量避免在解析语音时导致解析出的语义出现偏差,有利于用户正确理解原义,提高语义识别的准确性。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,所述电子设备例如可以是手机、PAD(平板电脑)、PC(个人计算机)、笔记本、摄像机、智能电视,或者例如可以是专用的录制设备,等等,本发明不做限制。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
下面结合附图对本发明优选的实施方式进行详细说明。
请参见图1,本发明实施例提供一种信息处理方法,所述方法可以应用于电子设备,所述方法的主要流程描述如下。
步骤101:在所述电子设备处于语音采集状态时,获得通过第二采集方式采集的输入信息。
当所述电子设备处于所述语音采集状态时,所述电子设备能够采集语音信息。具体的,所述电子设备可以具有音频输入单元,例如麦克,所述电子设备可以通过所述音频输入单元采集语音信息。
所述电子设备采集语音信息是通过第一采集方式进行采集,所述第一采集方式例如就是语音采集方式。
所述电子设备可以获得通过所述第二采集方式采集的所述输入信息,所述第二采集方式例如是鼠标输入方式,或者例如是键盘输入方式,或者例如是手写板输入方式,或者例如是手势输入方式,等等,只要所述第二采集方式与所述第一采集方式不同即可,本发明对于所述第二采集方式究竟是什么方式不作限制。
步骤102:根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置,以将采集所述输入信息的时刻作为采集所述第一语音信息的起始时刻,或作为采集所述第一语音信息的结束时刻;其中,所述第一语音信息为通过第一采集方式采集的,所述第一采集方式与所述第二采集方式不同,通过所述第一采集方式能够按照时间顺序采集多个语音信息,每个语音信息能转换为由字符串构成的字符信息;所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,或是指所述第一语音信息与通过所述第一采集方式采集的第二语音信息的逻辑分界位置,所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,或所述第二语音信息为按照时间顺序在所述第一语音信息之前最后一个采集的语音信息。
可选的,本发明实施例中,在获得通过所述第二采集方式采集的所述输入信息之前,或者,在根据所述输入信息确定在所述语音采集状态下采集的所述第一语音信息对应的逻辑边界位置之前,还可以包括:通过所述第一采集方式采集所述第一语音信息。
则可以根据所述输入信息确定所述第一语音信息的逻辑边界位置。例如,若用户想要输入一段话,所述第一语音信息是用户输入的第一句话,对于所述第一语音信息来说,所述逻辑边界位置可以是指所述第一语音信息输入的逻辑起始位置;若用户想要输入一段话,所述第一语音信息是用户输入的其中一句话,且不是第一句话,则所述逻辑边界位置就可以是指所述第一语音信息与所述第二语音信息的逻辑分界位置,所述第二语音信息可以是按照时间顺序在所述第一语音信息之前最后一个采集的语音信息,或者所述第二语音信息也可以是按照时间顺序在所述第一语音信息之后第一个采集的语音信息。即,通俗来讲,所述逻辑边界位置可以是指所述第一语音信息的上边界或下边界。
可以理解为,在所述电子设备接收所述输入信息后,所述第一语音信息的逻辑边界位置也就确定了,所述电子设备得以确定所述第一语音信息究竟从哪里分界,若要识别所述第一语音信息,则可以按照所述第一语音信息的逻辑边界位置确定所述第一语音信息的完整语义从而识别,这样不会简单地根据用户的停顿时间来确定语音的分界,可以使得到的逻辑分界结果更为准确,有利于还原出用户的本意。
本发明实施例中,在获得语音信息之后,可以是将语音信息转换为字符信息进行处理,或者也可以是根据确定的所述逻辑边界位置生成相应的指令。以下分别进行介绍。
一、将语音信息转换为字符信息进行处理。
可选的,本发明实施例中,若所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,或所述逻辑边界位置是指所述第一语音信息与所述第二语音信息的逻辑分界位置,且所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,则,在根据所述输入信息确定在所述语音采集状态下采集的所述第一语音信息对应的所述逻辑边界位置之后,还可以包括:对所述第一语音信息进行语音识别,以将所述第一语音信息转换为第一字符信息。
即,在确定出所述第一语音信息的逻辑边界位置后,可以对所述第一语音信息进行语音识别,以将所述第一语音信息转换为字符信息,例如将该字符信息称为所述第一字符信息,所述第一字符信息就表示了所述第一语音信息的语义。
在这种情况下,若所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,则,在获得通过所述第二采集方式采集的所述输入信息之后,还可以包括:确定所述输入信息在编辑界面所对应的显示位置;其中,所述编辑界面为所述第一采集方式和所述第二采集方式所针对的输入显示界面;
在对所述第一语音信息进行语音识别,以将所述第一语音信息转换为所述第一字符信息之后,还可以包括:从第一显示位置开始将所述第一字符信息显示在所述编辑界面中;其中,所述第一显示位置为所述输入信息在所述编辑界面中对应的显示位置。
此时,用户输入所述输入信息,主要是为了定位输入的语音信息究竟显示在页面中的什么位置。
例如一种场景为:所述编辑界面为word文档界面,用户要通过语音输入方式输入语音信息,则所述电子设备通过所述第一采集方式来采集用户输入的语音信息。在输入语音信息之前,用户首先通过所述第二采集方式输入了所述输入信息,例如所述电子设备的显示单元为触摸显示单元,所述第二采集方式为触摸输入方式,用户用手指触摸了所述显示单元中显示的word文档界面中的一个位置,该位置就是所述输入信息在所述编辑界面中所对应的显示位置,例如将该显示位置称为第一显示位置。之后,用户开始输入语音信息,例如输入的第一个语音信息就是所述第一语音信息,这里的第一个语音信息可以是指用户要输出的全部内容中的第一句话,则所述电子设备可以将所述第一语音信息转换为字符信息,例如将该字符信息称为所述第一字符信息,并从所述第一显示位置处开始显示所述第一字符信息。
请参见图2,其中的A表示所述编辑界面,例如所述编辑界面为如前所述的word文档界面,用户用手指触摸了所述word文档界面中的所述第一显示位置,即图2中的竖线所示的位置,需注意的是,在实际显示时,可能是不会显示该竖线的,这里只是为了表明所述第一显示位置,因此加了竖线予以解释。图2中的文字部分即为通过转换所述第一语音信息得到的所述第一字符信息。可以看到,是从所述第一显示位置处显示所述第一字符信息的。
相当于用户要输入语音信息时,先通过输入所述输入信息来确定语音信息输入的位置,所述电子设备可以根据所述输入信息对应的显示位置来显示输入的语音信息,从而能够将语音信息转换的字符信息显示在用户认为合适的位置,使显示结果更符合用户需求。
可选的,本发明实施例中,若所述逻辑边界位置是指所述第一语音信息与所述第二语音信息的逻辑分界位置,且所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,则,在根据所述输入信息确定在所述语音采集状态下采集的所述第一语音信息对应的所述逻辑边界位置之后,除了可以将所述第一语音信息转换为所述第一字符信息之外,还可以包括:
对所述输入信息进行识别,以将所述输入信息转换为第二字符信息;
通过所述逻辑边界位置,将所述第一字符信息和所述第二字符信息组成第三字符信息。
即,可以将所述第一语音信息和所述输入信息均转换为字符信息,并将所述第一字符信息和所述第二字符信息组合在一起。例如,所述第一字符信息为文字信息,所述第二字符信息为标点符号信息,且所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,则应该将所述第二字符信息添加到所述第一字符信息之后,相当于给所述第一字符信息的下边界加上了标点符号。对于文字信息来说,一般就是通过标点符号来进行逻辑分界,因此,给所述第一字符信息的下边界添加标点符号,相当于将所述第一字符信息和之后输入的语音信息转换的字符信息进行了逻辑分界。
可选的,本发明实施例中,在获得通过所述第二采集方式采集的所述输入信息之后,还可以包括:确定所述输入信息在所述编辑界面所对应的显示位置;其中,所述编辑界面为所述第一采集方式和所述第二采集方式所针对的输入显示界面;
在通过所述逻辑边界位置,将所述第一字符信息和所述第二字符信息组成所述第三字符信息之后,还包括:将所述第三字符信息显示在所述编辑界面中,且在显示所述第三字符信息时,所述第一字符信息位于所述第二字符信息之前;其中,所述第二字符信息在所述编辑界面中是从第一显示位置开始显示的,所述第一显示位置为所述输入信息在所述编辑界面中对应的显示位置。
即,在将所述第一字符信息和所述第二字符信息组合为所述第三字符信息后,可以将所述第三字符信息显示在所述编辑界面中。前面介绍了,是将所述第二字符信息添加到所述第一字符信息的后面形成了所述第三字符信息,因此,在显示所述第三字符信息时,是将所述第一字符信息显示在所述第二字符信息的前面。
在显示所述第三字符信息时,可以确定一个显示位置,一种方式就是确定所述输入信息在所述编辑界面中所对应的显示位置,例如将该显示位置称为所述第一显示位置。
例如一种场景为:所述编辑界面为word文档界面,用户要通过语音输入方式输入语音信息,则所述电子设备通过所述第一采集方式来采集用户输入的语音信息。在输入第一语音信息之后,用户通过所述第二采集方式输入了所述输入信息,例如所述电子设备的显示单元为触摸显示单元,所述第二采集方式为触摸输入方式,用户用手指触摸了所述显示单元中显示的word文档界面中的一个位置,该位置就是所述输入信息在所述编辑界面中所对应的显示位置,即所述第一显示位置。所述电子设备将所述第一语音信息转换为所述第一字符信息,及,将所述输入信息转换为第二字符信息后,将所述第二字符信息添加到所述第一字符信息之后,组成所述第三字符信息。所述电子设备在显示所述第三字符信息时,所述第二字符信息是从所述第一显示位置处开始显示的。
请参见图3,其中的A表示所述编辑界面,例如所述编辑界面为如前所述的word文档界面。图3中的文字部分即为通过转换所述第一语音信息得到的所述第一字符信息。在输入所述第一语音信息后,用户通过键盘输入方式输入了一个标点符号,即为图3中所示的句号,图3中的句号所在的显示位置就是所述第一显示位置。图3中的文字部分和标点符号即组成所述第三字符信息,可以看到,标点位于该文字部分的后面,且标点所在的位置是所述第一显示位置。
相当于,用户输入了一句话之后,用手指触摸了所述显示单元中的所述第一显示位置,表示要将标点符号显示在所述第一显示位置,这样也就相应确定了所述第三字符信息的显示位置。所述电子设备可以根据所述输入信息对应的显示位置来显示输入的语音信息,从而能够将语音信息转换的字符信息显示在用户认为合适的位置,使显示结果更符合用户需求。
二、根据确定的所述逻辑边界位置生成相应的指令。
可选的,本发明实施例中,若所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,或是指所述第一语音信息与所述第二语音信息的逻辑分界位置,且所述第二语音信息为按照时间顺序在所述第一语音信息之前最后一个采集的语音信息,则,在根据所述输入信息确定在所述语音采集状态下采集的所述第一语音信息对应的所述逻辑边界位置之后,还可以包括:
根据所述逻辑边界位置,生成特定指令;
执行所述特定指令,对输入的语音信息进行相应处理。
可选的,本发明实施例中,根据所述逻辑边界位置,生成特定指令,可以包括:根据所述逻辑边界位置,生成语音采集指令;
执行所述特定指令,对输入的语音信息进行相应处理,包括:执行所述语音采集指令,确定从所述逻辑边界位置处启动语音采集功能,以采集输入的语音信息。
相当于,用户输入所述输入信息,所述电子设备在采集到所述输入信息后,确定启动所述语音采集功能,开始进行语音采集。本发明实施例中,启动语音采集功能和处于语音采集状态下并不冲突,处于所述语音采集状态下不一定就已经启动了语音采集功能,语音采集功能有可能是所述电子设备处于所述语音采集状态下就随之启动,或者也有可能是处于所述语音采集状态下之后再启动语音采集功能,有可能是所述电子设备自动启动,或者也有可能是用户手动启动。
例如一种场景为:用户通过语音输入方式输入了所述第一语音信息,及通过键盘输入方式输入了所述输入信息,所述电子设备根据所述输入信息确定了所述第一语音信息的所述逻辑边界位置,并根据所述逻辑边界位置生成所述语音采集指令,确定从所述逻辑边界位置处开始启动语音采集功能,以采集输入的语音信息。
可选的,本发明实施例中,在获得通过所述第二采集方式采集的所述输入信息之前,或,在根据所述输入信息确定在所述语音采集状态下采集的所述第一语音信息对应的所述逻辑边界位置之前,还可以包括:通过所述第一采集方式采集所述第一语音信息。
可选的,本发明实施例中,若是在获得通过所述第二采集方式采集的所述输入信息之前,通过所述第一采集方式采集的所述所述第一语音信息,则:
在通过所述第一采集方式采集所述第一语音信息之后,还可以包括:若到达第一时长时未采集到所述输入信息,则对所述第一语音信息进行特定处理,其中,所述第一时长的起始时刻为采集所述第一语音信息的结束时刻。
即,从采集所述第一语音信息的结束时刻开始,当到达所述第一时长时所述电子设备还未采集到所述输入信息时,可以开始对所述第一语音信息进行所述特定处理,所述特定处理例如可以是对所述第一语音信息进行识别,或者也可以是其他处理,本发明不作限制。
或者,可选的,本发明实施例中,若是在获得通过所述第二采集方式采集的所述输入信息之前,通过所述第一采集方式采集的所述所述第一语音信息,则:
所述获得通过所述第二采集方式采集的所述输入信息,可以包括:在到达第二时长时,获得通过所述第二采集方式采集的所述输入信息;其中,所述第二时长的起始时刻为采集所述第一语音信息的结束时刻,所述第二时长小于所述第一时长;
在获得通过所述第二采集方式采集的所述输入信息之后,还包括:对所述第一语音信息进行所述特定处理。
即,从采集所述第一语音信息的结束时刻开始,当到达所述第二时长时,所述电子设备采集到了所述输入信息,那么所述电子设备可以立刻开始对所述第一语音信息进行所述特定处理,所述第二时长小于所述第一时长。
所述第一时长例如是预设时长,若到达所述第一时长时用户还未进行其他输入,则所述电子设备可以开始处理所述第一语音信息。可见,采用本发明实施例中的技术方案后,所述电子设备在采集到所述输入信息后可以即刻开始对所述第一语音信息进行所述特定处理,无需到达所述第一时长后再处理,相对于现有技术来说显然节省了操作时间,提高了操作效率。
请参见图4,基于同一发明构思,本发明实施例提供一种电子设备,所述电子设备可以包括获取模块401和第一确定模块402。
获取模块401用于在所述电子设备处于语音采集状态时,获得通过第二采集方式采集的输入信息;
第一确定模块402用于根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置,以将采集所述输入信息的时刻作为采集所述第一语音信息的起始时刻,或作为采集所述第一语音信息的结束时刻;
其中,所述第一语音信息为通过第一采集方式采集的,所述第一采集方式与所述第二采集方式不同,通过所述第一采集方式能够按照时间顺序采集多个语音信息,每个语音信息能转换为由字符串构成的字符信息;所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,或是指所述第一语音信息与通过所述第一采集方式采集的第二语音信息的逻辑分界位置,所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,或所述第二语音信息为按照时间顺序在所述第一语音信息之前最后一个采集的语音信息。
可选的,本发明实施例中,所述电子设备还包括识别模块。若所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,或所述逻辑边界位置是指所述第一语音信息与所述第二语音信息的逻辑分界位置,且所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,则所述识别模块用于:对所述第一语音信息进行语音识别,以将所述第一语音信息转换为第一字符信息。
可选的,本发明实施例中,所述电子设备还包括第二确定模块和操作模块;
若所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,则所述第二确定模块用于:在获取模块401获得通过第二采集方式采集的输入信息之后,确定所述输入信息在编辑界面所对应的显示位置;其中,所述编辑界面为所述第一采集方式和所述第二采集方式所针对的输入显示界面;
所述操作模块用于:在所述识别模块对所述第一语音信息进行语音识别,以将所述第一语音信息转换为第一字符信息之后,从第一显示位置开始将所述第一字符信息显示在所述编辑界面中;其中,所述第一显示位置为所述输入信息在所述编辑界面中对应的显示位置。
可选的,本发明实施例中,所述电子设备还包括组合模块;
若所述逻辑边界位置是指所述第一语音信息与所述第二语音信息的逻辑分界位置,且所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,则所述识别模块还用于:在第一确定模块402根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置之后,对所述输入信息进行识别,以将所述输入信息转换为第二字符信息;
所述组合模块用于:通过所述逻辑边界位置,将所述第一字符信息和所述第二字符信息组成第三字符信息。
可选的,本发明实施例中,所述电子设备还包括所述第二确定模块和所述操作模块;
所述第二确定模块用于:在获取模块401获得通过第二采集方式采集的输入信息之后,确定所述输入信息在编辑界面所对应的显示位置;其中,所述编辑界面为所述第一采集方式和所述第二采集方式所针对的输入显示界面;
所述操作模块用于:在所述组合模块通过所述逻辑边界位置,将所述第一字符信息和所述第二字符信息组成第三字符信息之后,将所述第三字符信息显示在所述编辑界面中,且在显示所述第三字符信息时,所述第一字符信息位于所述第二字符信息之前;其中,所述第二字符信息在所述编辑界面中是从第一显示位置开始显示的,所述第一显示位置为所述输入信息在所述编辑界面中对应的显示位置。
可选的,本发明实施例中,所述电子设备还包括生成模块和执行模块;若所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,或是指所述第一语音信息与所述第二语音信息的逻辑分界位置,且所述第二语音信息为按照时间顺序在所述第一语音信息之前最后一个采集的语音信息,则:
所述生成模块用于在第一确定模块402根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置之后,根据所述逻辑边界位置,生成特定指令;
所述执行模块用于执行所述特定指令,对输入的语音信息进行相应处理。
可选的,本发明实施例中,所述生成模块具体用于:根据所述逻辑边界位置,生成语音采集指令;所述执行模块具体用于:执行所述语音采集指令,确定从所述逻辑边界位置处启动语音采集功能,以采集输入的语音信息。
可选的,本发明实施例中,获取模块401还用于:在获取模块401获得通过第二采集方式采集的输入信息之前,或,在第一确定模块402根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置之前,通过所述第一采集方式采集所述第一语音信息。
可选的,本发明实施例中,所述电子设备还包括处理模块;若是在获得通过第二采集方式采集的输入信息之前,通过所述第一采集方式采集所述第一语音信息,则:
所述处理模块用于:在获取模块401通过所述第一采集方式采集所述第一语音信息之后,若到达第一时长时未采集到所述输入信息,则对所述第一语音信息进行特定处理,其中,所述第一时长的起始时刻为采集所述第一语音信息的结束时刻;或
获取模块401用于获得通过第二采集方式采集的输入信息,具体为:在到达第二时长时,获得通过所述第二采集方式采集的所述输入信息;其中,所述第二时长的起始时刻为采集所述第一语音信息的结束时刻,所述第二时长小于所述第一时长;所述处理模块用于:在获取模块401获得通过所述第二采集方式采集的所述输入信息之后,对所述第一语音信息进行所述特定处理。
其中,获取模块401、第一确定模块402、所述第二确定模块、所述操作模块、所述组合模块、所述识别模块、所述生成模块、所述执行模块和所述处理模块可以是两两均相连。
本发明实施例提供一种信息处理方法,所述方法可以应用于电子设备,所述方法可以包括:在所述电子设备处于语音采集状态时,获得通过第二采集方式采集的输入信息;根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置,以将采集所述输入信息的时刻作为采集所述第一语音信息的起始时刻,或作为采集所述第一语音信息的结束时刻;其中,所述第一语音信息为通过第一采集方式采集的,所述第一采集方式与所述第二采集方式不同,通过所述第一采集方式能够按照时间顺序采集多个语音信息,每个语音信息能转换为由字符串构成的字符信息;所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,或是指所述第一语音信息与通过所述第一采集方式采集的第二语音信息的逻辑分界位置,所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,或所述第二语音信息为按照时间顺序在所述第一语音信息之前最后一个采集的语音信息。
本发明实施例中,在所述电子设备处于所述语音采集状态时可以通过第一采集方式采集语音信息,同时,所述电子设备还可以通过第二采集方式采集所述输入信息,并可以根据所述输入信息来确定采集的第一语音信息对应的逻辑边界位置,这样,电子设备会根据额外的输入信息来确定用户输入的语音信息的逻辑分界点,用户在说一句话时,即使中途停顿时间的过长,电子设备也不会认为用户输入上句话已完毕,而是会一直等待,直到接收到输入信息才会根据输入信息确定用户输入的语音的分界点,从而避免将本身是一句话的内容分割为两句甚至多句话,尽量避免在解析语音时导致解析出的语义出现偏差,有利于用户正确理解原义,提高语义识别的准确性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
具体来讲,本申请实施例中的一种信息处理方法对应的计算机程序指令可以被存储在光盘,硬盘,U盘等存储介质上,当存储介质中的与一种信息处理方法对应的计算机程序指令被一电子设备读取或被执行时,包括如下步骤:
在所述电子设备处于语音采集状态时,获得通过第二采集方式采集的输入信息;
根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置,以将采集所述输入信息的时刻作为采集所述第一语音信息的起始时刻,或作为采集所述第一语音信息的结束时刻;
其中,所述第一语音信息为通过第一采集方式采集的,所述第一采集方式与所述第二采集方式不同,通过所述第一采集方式能够按照时间顺序采集多个语音信息,每个语音信息能转换为由字符串构成的字符信息;所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,或是指所述第一语音信息与通过所述第一采集方式采集的第二语音信息的逻辑分界位置,所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,或所述第二语音信息为按照时间顺序在所述第一语音信息之前最后一个采集的语音信息。
可选的,若所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,或所述逻辑边界位置是指所述第一语音信息与所述第二语音信息的逻辑分界位置,且所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,所述存储介质中存储的与步骤:根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置,对应的计算机指令在被执行之后,还包括:
对所述第一语音信息进行语音识别,以将所述第一语音信息转换为第一字符信息。
可选的,若所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,所述存储介质中存储的与步骤:获得通过第二采集方式采集的输入信息,对应的计算机指令在被执行之后,还包括:确定所述输入信息在编辑界面所对应的显示位置;其中,所述编辑界面为所述第一采集方式和所述第二采集方式所针对的输入显示界面;所述存储介质中存储的与步骤:对所述第一语音信息进行语音识别,以将所述第一语音信息转换为第一字符信息,对应的计算机指令在被执行之后,还包括:从第一显示位置开始将所述第一字符信息显示在所述编辑界面中;其中,所述第一显示位置为所述输入信息在所述编辑界面中对应的显示位置。
可选的,若所述逻辑边界位置是指所述第一语音信息与所述第二语音信息的逻辑分界位置,且所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,所述存储介质中存储的与步骤:根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置,对应的计算机指令在具体被执行之后,还包括:
对所述输入信息进行识别,以将所述输入信息转换为第二字符信息;
通过所述逻辑边界位置,将所述第一字符信息和所述第二字符信息组成第三字符信息。
可选的,所述存储介质中存储的与步骤:获得通过第二采集方式采集的输入信息,对应的计算机指令在具体被执行之后,还包括:确定所述输入信息在编辑界面所对应的显示位置;其中,所述编辑界面为所述第一采集方式和所述第二采集方式所针对的输入显示界面;所述存储介质中存储的与步骤:通过所述逻辑边界位置,将所述第一字符信息和所述第二字符信息组成第三字符信息,对应的计算机指令在具体被执行之后,还包括:将所述第三字符信息显示在所述编辑界面中,且在显示所述第三字符信息时,所述第一字符信息位于所述第二字符信息之前;其中,所述第二字符信息在所述编辑界面中是从第一显示位置开始显示的,所述第一显示位置为所述输入信息在所述编辑界面中对应的显示位置。
可选的,若所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,或是指所述第一语音信息与所述第二语音信息的逻辑分界位置,且所述第二语音信息为按照时间顺序在所述第一语音信息之前最后一个采集的语音信息,所述存储介质中存储的与步骤:根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置,对应的计算机指令在具体被执行之后,还包括:
根据所述逻辑边界位置,生成特定指令;
执行所述特定指令,对输入的语音信息进行相应处理。
可选的,所述存储介质中存储的与步骤:根据所述逻辑边界位置,生成特定指令,对应的计算机指令在具体被执行的过程中,具体包括:根据所述逻辑边界位置,生成语音采集指令;所述存储介质中存储的与步骤:执行所述特定指令,对输入的语音信息进行相应处理,对应的计算机指令在具体被执行的过程中,具体包括:执行所述语音采集指令,确定从所述逻辑边界位置处启动语音采集功能,以采集输入的语音信息。
可选的,所述存储介质中存储的与步骤:获得通过第二采集方式采集的输入信息,对应的计算机指令在具体被执行之前,或,所述存储介质中存储的与步骤:根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置,对应的计算机指令在具体被执行之前,还包括:
通过所述第一采集方式采集所述第一语音信息。
可选的,若是在获得通过第二采集方式采集的输入信息之前,通过所述第一采集方式采集所述第一语音信息,所述存储介质中存储的与步骤:通过所述第一采集方式采集所述第一语音信息,对应的计算机指令在具体被执行之后,还包括:若到达第一时长时未采集到所述输入信息,则对所述第一语音信息进行特定处理,其中,所述第一时长的起始时刻为采集所述第一语音信息的结束时刻;或,所述存储介质中存储的与步骤:获得通过第二采集方式采集的输入信息,对应的计算机指令在具体被执行的过程中,具体包括:在到达第二时长时,获得通过所述第二采集方式采集的所述输入信息;其中,所述第二时长的起始时刻为采集所述第一语音信息的结束时刻,所述第二时长小于所述第一时长;所述存储介质中存储的与步骤:获得通过所述第二采集方式采集的所述输入信息,对应的计算机指令在具体被执行之后,还包括:对所述第一语音信息进行所述特定处理。
以上所述,以上实施例仅用以对本申请的技术方案进行了详细介绍,但以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,不应理解为对本发明的限制。本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种信息处理方法,所述方法应用于电子设备,包括以下步骤:
在所述电子设备处于语音采集状态时,获得通过第二采集方式采集的输入信息;
根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置,以将采集所述输入信息的时刻作为采集所述第一语音信息的起始时刻,或作为采集所述第一语音信息的结束时刻;
其中,所述第一语音信息为通过第一采集方式采集的,所述第一采集方式与所述第二采集方式不同,通过所述第一采集方式能够按照时间顺序采集多个语音信息,每个语音信息能转换为由字符串构成的字符信息;所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,或是指所述第一语音信息与通过所述第一采集方式采集的第二语音信息的逻辑分界位置,所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,或所述第二语音信息为按照时间顺序在所述第一语音信息之前最后一个采集的语音信息;
若所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,或所述逻辑边界位置是指所述第一语音信息与所述第二语音信息的逻辑分界位置,且所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,则,在根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置之后,还包括:
对所述第一语音信息进行语音识别,以将所述第一语音信息转换为第一字符信息;
若所述逻辑边界位置是指所述第一语音信息与所述第二语音信息的逻辑分界位置,且所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,则,在根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置之后,还包括:
对所述输入信息进行识别,以将所述输入信息转换为第二字符信息;
通过所述逻辑边界位置,将所述第一字符信息和所述第二字符信息组成第三字符信息;
在获得通过第二采集方式采集的输入信息之后,还包括:确定所述输入信息在编辑界面所对应的显示位置;其中,所述编辑界面为所述第一采集方式和所述第二采集方式所针对的输入显示界面;
在通过所述逻辑边界位置,将所述第一字符信息和所述第二字符信息组成第三字符信息之后,还包括:将所述第三字符信息显示在所述编辑界面中,且在显示所述第三字符信息时,所述第一字符信息位于所述第二字符信息之前;其中,所述第二字符信息在所述编辑界面中是从第一显示位置开始显示的,所述第一显示位置为所述输入信息在所述编辑界面中对应的显示位置;
若是在获得通过第二采集方式采集的输入信息之前,通过所述第一采集方式采集所述第一语音信息,则:
在通过所述第一采集方式采集所述第一语音信息之后,还包括:若到达第一时长时未采集到所述输入信息,则对所述第一语音信息进行特定处理,其中,所述第一时长的起始时刻为通过所述第一采集方式采集所述第一语音信息的结束时刻;或
所述获得通过第二采集方式采集的输入信息,包括:在到达第二时长时,获得通过所述第二采集方式采集的所述输入信息;其中,所述第二时长的起始时刻为通过所述第一采集方式采集所述第一语音信息的结束时刻,所述第二时长小于所述第一时长;
在获得通过所述第二采集方式采集的所述输入信息之后,还包括:对所述第一语音信息进行所述特定处理。
2.如权利要求1所述的方法,其特征在于,若所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,则,在获得通过第二采集方式采集的输入信息之后,还包括:确定所述输入信息在编辑界面所对应的显示位置;其中,所述编辑界面为所述第一采集方式和所述第二采集方式所针对的输入显示界面;
在对所述第一语音信息进行语音识别,以将所述第一语音信息转换为第一字符信息之后,还包括:从第一显示位置开始将所述第一字符信息显示在所述编辑界面中;其中,所述第一显示位置为所述输入信息在所述编辑界面中对应的显示位置。
3.如权利要求1所述的方法,其特征在于,若所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,或是指所述第一语音信息与所述第二语音信息的逻辑分界位置,且所述第二语音信息为按照时间顺序在所述第一语音信息之前最后一个采集的语音信息,则,在根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置之后,还包括:
根据所述逻辑边界位置,生成特定指令;
执行所述特定指令,对输入的语音信息进行相应处理。
4.如权利要求3所述的方法,其特征在于,根据所述逻辑边界位置,生成特定指令,包括:根据所述逻辑边界位置,生成语音采集指令;
执行所述特定指令,对输入的语音信息进行相应处理,包括:执行所述语音采集指令,确定从所述逻辑边界位置处启动语音采集功能,以采集输入的语音信息。
5.如权利要求1-4任一所述的方法,其特征在于,在获得通过第二采集方式采集的输入信息之前,或,在根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置之前,还包括:
通过所述第一采集方式采集所述第一语音信息。
6.一种电子设备,包括:
获取模块,用于在所述电子设备处于语音采集状态时,获得通过第二采集方式采集的输入信息;
第一确定模块,用于根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置,以将采集所述输入信息的时刻作为采集所述第一语音信息的起始时刻,或作为采集所述第一语音信息的结束时刻;
其中,所述第一语音信息为通过第一采集方式采集的,所述第一采集方式与所述第二采集方式不同,通过所述第一采集方式能够按照时间顺序采集多个语音信息,每个语音信息能转换为由字符串构成的字符信息;所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,或是指所述第一语音信息与通过所述第一采集方式采集的第二语音信息的逻辑分界位置,所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,或所述第二语音信息为按照时间顺序在所述第一语音信息之前最后一个采集的语音信息;
所述电子设备还包括识别模块;
若所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,或所述逻辑边界位置是指所述第一语音信息与所述第二语音信息的逻辑分界位置,且所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,则所述识别模块用于:对所述第一语音信息进行语音识别,以将所述第一语音信息转换为第一字符信息;
所述电子设备还包括组合模块;
若所述逻辑边界位置是指所述第一语音信息与所述第二语音信息的逻辑分界位置,且所述第二语音信息为按照时间顺序在所述第一语音信息之后第一个采集的语音信息,则所述识别模块还用于:在所述第一确定模块根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置之后,对所述输入信息进行识别,以将所述输入信息转换为第二字符信息;
所述组合模块用于:通过所述逻辑边界位置,将所述第一字符信息和所述第二字符信息组成第三字符信息;
所述电子设备还包括第二确定模块和操作模块;
所述第二确定模块用于:在所述获取模块获得通过第二采集方式采集的输入信息之后,确定所述输入信息在编辑界面所对应的显示位置;其中,所述编辑界面为所述第一采集方式和所述第二采集方式所针对的输入显示界面;
所述操作模块用于:在所述组合模块通过所述逻辑边界位置,将所述第一字符信息和所述第二字符信息组成第三字符信息之后,将所述第三字符信息显示在所述编辑界面中,且在显示所述第三字符信息时,所述第一字符信息位于所述第二字符信息之前;其中,所述第二字符信息在所述编辑界面中是从第一显示位置开始显示的,所述第一显示位置为所述输入信息在所述编辑界面中对应的显示位置;
所述电子设备还包括处理模块;若是在获得通过第二采集方式采集的输入信息之前,通过所述第一采集方式采集所述第一语音信息,则:
所述处理模块用于在通过所述第一采集方式采集所述第一语音信息之后,还包括:若到达第一时长时未采集到所述输入信息,则对所述第一语音信息进行特定处理,其中,所述第一时长的起始时刻为通过所述第一采集方式采集所述第一语音信息的结束时刻;或
所述处理模块用于所述获得通过第二采集方式采集的输入信息,包括:在到达第二时长时,获得通过所述第二采集方式采集的所述输入信息;其中,所述第二时长的起始时刻为通过所述第一采集方式采集所述第一语音信息的结束时刻,所述第二时长小于所述第一时长;
所述处理模块用于在获得通过所述第二采集方式采集的所述输入信息之后,还包括:对所述第一语音信息进行所述特定处理。
7.如权利要求6所述的电子设备,其特征在于,所述电子设备还包括第二确定模块和操作模块;
若所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,则所述第二确定模块用于:在所述获取模块获得通过第二采集方式采集的输入信息之后,确定所述输入信息在编辑界面所对应的显示位置;其中,所述编辑界面为所述第一采集方式和所述第二采集方式所针对的输入显示界面;
所述操作模块用于:在所述识别模块对所述第一语音信息进行语音识别,以将所述第一语音信息转换为第一字符信息之后,从第一显示位置开始将所述第一字符信息显示在所述编辑界面中;其中,所述第一显示位置为所述输入信息在所述编辑界面中对应的显示位置。
8.如权利要求6所述的电子设备,其特征在于,所述电子设备还包括生成模块和执行模块;若所述逻辑边界位置是指所述第一语音信息输入的逻辑起始位置,或是指所述第一语音信息与所述第二语音信息的逻辑分界位置,且所述第二语音信息为按照时间顺序在所述第一语音信息之前最后一个采集的语音信息,则:
所述生成模块用于在所述第一确定模块根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置之后,根据所述逻辑边界位置,生成特定指令;
所述执行模块用于执行所述特定指令,对输入的语音信息进行相应处理。
9.如权利要求8所述的电子设备,其特征在于,所述生成模块具体用于:根据所述逻辑边界位置,生成语音采集指令;
所述执行模块具体用于:执行所述语音采集指令,确定从所述逻辑边界位置处启动语音采集功能,以采集输入的语音信息。
10.如权利要求6-9任一所述的电子设备,其特征在于,所述获取模块还用于:在所述获取模块获得通过第二采集方式采集的输入信息之前,或,在所述第一确定模块根据所述输入信息确定在所述语音采集状态下采集的第一语音信息对应的逻辑边界位置之前,通过所述第一采集方式采集所述第一语音信息。
CN201410472161.0A 2014-09-16 2014-09-16 一种信息处理方法及电子设备 Active CN104267922B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410472161.0A CN104267922B (zh) 2014-09-16 2014-09-16 一种信息处理方法及电子设备
US14/638,281 US10699712B2 (en) 2014-09-16 2015-03-04 Processing method and electronic device for determining logic boundaries between speech information using information input in a different collection manner

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410472161.0A CN104267922B (zh) 2014-09-16 2014-09-16 一种信息处理方法及电子设备

Publications (2)

Publication Number Publication Date
CN104267922A CN104267922A (zh) 2015-01-07
CN104267922B true CN104267922B (zh) 2019-05-31

Family

ID=52159448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410472161.0A Active CN104267922B (zh) 2014-09-16 2014-09-16 一种信息处理方法及电子设备

Country Status (2)

Country Link
US (1) US10699712B2 (zh)
CN (1) CN104267922B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11030207B1 (en) 2016-04-12 2021-06-08 Tableau Software, Inc. Updating displayed data visualizations according to identified conversation centers in natural language commands
US10515121B1 (en) * 2016-04-12 2019-12-24 Tableau Software, Inc. Systems and methods of using natural language processing for visual analysis of a data set
CN106027785A (zh) * 2016-05-26 2016-10-12 深圳市金立通信设备有限公司 一种语音处理方法及终端
CN107146602B (zh) * 2017-04-10 2020-10-02 北京猎户星空科技有限公司 一种语音识别方法、装置及电子设备
CN107919130B (zh) * 2017-11-06 2021-12-17 百度在线网络技术(北京)有限公司 基于云端的语音处理方法和装置
CN108847237A (zh) * 2018-07-27 2018-11-20 重庆柚瓣家科技有限公司 连续语音识别方法及系统
CN109709827B (zh) * 2018-12-10 2020-05-19 珠海格力电器股份有限公司 一种电器控制方法、装置、存储介质及电器
CN109740361B (zh) * 2018-12-29 2021-08-06 深圳Tcl新技术有限公司 数据处理方法、装置及计算机可读存储介质
CN112102839B (zh) * 2020-08-31 2023-06-30 山西瑞森特科技有限公司 一种采集地面样本数据的方法、装置及计算机设备
CN114610164A (zh) * 2022-03-17 2022-06-10 联想(北京)有限公司 信息处理方法和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1637702A (zh) * 2003-12-30 2005-07-13 微软公司 输入文本的方法
CN1864204A (zh) * 2002-09-06 2006-11-15 语音信号技术有限公司 用来完成语音识别的方法、系统和程序

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US5023911A (en) * 1986-01-10 1991-06-11 Motorola, Inc. Word spotting in a speech recognition system without predetermined endpoint detection
CA2081188A1 (en) * 1992-10-22 1994-04-23 Hanavi M. Hirsh Apparatus and method for continuous speech recognition
US5764852A (en) * 1994-08-16 1998-06-09 International Business Machines Corporation Method and apparatus for speech recognition for distinguishing non-speech audio input events from speech audio input events
US5594834A (en) * 1994-09-30 1997-01-14 Motorola, Inc. Method and system for recognizing a boundary between sounds in continuous speech
US6353809B2 (en) * 1997-06-06 2002-03-05 Olympus Optical, Ltd. Speech recognition with text generation from portions of voice data preselected by manual-input commands
WO2004023455A2 (en) * 2002-09-06 2004-03-18 Voice Signal Technologies, Inc. Methods, systems, and programming for performing speech recognition
JP2005509906A (ja) * 2001-11-16 2005-04-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 所定ウィンドウにてテキストを編集する装置
US7047200B2 (en) * 2002-05-24 2006-05-16 Microsoft, Corporation Voice recognition status display
EP1376999A1 (en) * 2002-06-21 2004-01-02 BRITISH TELECOMMUNICATIONS public limited company Spoken alpha-numeric sequence entry system with repair mode
EP1422692A3 (en) * 2002-11-22 2004-07-14 ScanSoft, Inc. Automatic insertion of non-verbalized punctuation in speech recognition
JP4265908B2 (ja) * 2002-12-12 2009-05-20 アルパイン株式会社 音声認識装置及び音声認識性能改善方法
JP2006523904A (ja) * 2003-04-18 2006-10-19 ガーサビアン、ベンジャミン、フィルーツ 移動体及び固定環境内でのデータ入力向上システム
US20040230637A1 (en) * 2003-04-29 2004-11-18 Microsoft Corporation Application controls for speech enabled recognition
US7552055B2 (en) * 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
US7395959B2 (en) * 2005-10-27 2008-07-08 International Business Machines Corporation Hands free contact database information entry at a communication device
US8014591B2 (en) * 2006-09-13 2011-09-06 Aurilab, Llc Robust pattern recognition system and method using socratic agents
US7907705B1 (en) * 2006-10-10 2011-03-15 Intuit Inc. Speech to text for assisted form completion
WO2008067562A2 (en) * 2006-11-30 2008-06-05 Rao Ashwin P Multimodal speech recognition system
US20120284015A1 (en) * 2008-01-28 2012-11-08 William Drewes Method for Increasing the Accuracy of Subject-Specific Statistical Machine Translation (SMT)
US8065143B2 (en) * 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8380499B2 (en) * 2008-03-31 2013-02-19 General Motors Llc Speech recognition adjustment based on manual interaction
KR20090107365A (ko) * 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
KR101502003B1 (ko) * 2008-07-08 2015-03-12 엘지전자 주식회사 이동 단말기 및 그 텍스트 입력 방법
US8352260B2 (en) * 2008-09-10 2013-01-08 Jun Hyung Sung Multimodal unification of articulation for device interfacing
US9922640B2 (en) * 2008-10-17 2018-03-20 Ashwin P Rao System and method for multimodal utterance detection
KR101545582B1 (ko) * 2008-10-29 2015-08-19 엘지전자 주식회사 단말기 및 그 제어 방법
US8249870B2 (en) * 2008-11-12 2012-08-21 Massachusetts Institute Of Technology Semi-automatic speech transcription
US8294683B2 (en) * 2009-09-25 2012-10-23 Mitac International Corp. Method of processing touch commands and voice commands in parallel in an electronic device supporting speech recognition
JP2011215421A (ja) * 2010-03-31 2011-10-27 Toshiba Corp 音声対話装置
FR2963132A1 (fr) * 2010-07-23 2012-01-27 Aldebaran Robotics Robot humanoide dote d'une interface de dialogue naturel, methode d'utilisation et de programmation de ladite interface
US8762852B2 (en) * 2010-11-04 2014-06-24 Digimarc Corporation Smartphone-based methods and systems
CN102479508B (zh) * 2010-11-30 2015-02-11 国际商业机器公司 用于将文本转换成语音的方法和系统
US8825478B2 (en) * 2011-01-10 2014-09-02 Nuance Communications, Inc. Real time generation of audio content summaries
JP2013046151A (ja) * 2011-08-23 2013-03-04 Ricoh Co Ltd プロジェクタ、投影システム及び情報検索表示方法
US9432611B1 (en) * 2011-09-29 2016-08-30 Rockwell Collins, Inc. Voice radio tuning
US9182826B2 (en) * 2012-11-21 2015-11-10 Intel Corporation Gesture-augmented speech recognition
CN103885743A (zh) * 2012-12-24 2014-06-25 大陆汽车投资(上海)有限公司 结合注视跟踪技术的语音文本输入方法和系统
JP2014240940A (ja) * 2013-06-12 2014-12-25 株式会社東芝 書き起こし支援装置、方法、及びプログラム
KR102089444B1 (ko) * 2013-07-25 2020-03-16 삼성전자 주식회사 음성 인식 기능을 지원하는 전자 기기의 음성 입력 제어 방법 및 장치 장치
KR102063766B1 (ko) * 2013-09-17 2020-01-08 엘지전자 주식회사 이동 단말기 및 그것의 제어방법
US9600474B2 (en) * 2013-11-08 2017-03-21 Google Inc. User interface for realtime language translation
US9734820B2 (en) * 2013-11-14 2017-08-15 Nuance Communications, Inc. System and method for translating real-time speech using segmentation based on conjunction locations
KR20150125464A (ko) * 2014-04-30 2015-11-09 삼성전자주식회사 메시지 표시 방법 및 전자 장치
US10261674B2 (en) * 2014-09-05 2019-04-16 Microsoft Technology Licensing, Llc Display-efficient text entry and editing
US10276158B2 (en) * 2014-10-31 2019-04-30 At&T Intellectual Property I, L.P. System and method for initiating multi-modal speech recognition using a long-touch gesture

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1864204A (zh) * 2002-09-06 2006-11-15 语音信号技术有限公司 用来完成语音识别的方法、系统和程序
CN1637702A (zh) * 2003-12-30 2005-07-13 微软公司 输入文本的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAPTIC VOICE RECOGNITION AUGMENTING SPEECH MODALITY WITH TOUCH EVENTS FOR EFFICIENT SPEECH RECOGNITION;Khe Chai Sim;《spoken language technology workshop》;20110124;全文

Also Published As

Publication number Publication date
CN104267922A (zh) 2015-01-07
US20160078865A1 (en) 2016-03-17
US10699712B2 (en) 2020-06-30

Similar Documents

Publication Publication Date Title
CN104267922B (zh) 一种信息处理方法及电子设备
CN106658129B (zh) 基于情绪的终端控制方法、装置及终端
US10270736B2 (en) Account adding method, terminal, server, and computer storage medium
CN108288468B (zh) 语音识别方法及装置
CN107665708B (zh) 智能语音交互方法及系统
EP3508991A1 (en) Man-machine interaction method and apparatus based on artificial intelligence
CN103853703B (zh) 一种信息处理方法及电子设备
CN104598644B (zh) 喜好标签挖掘方法和装置
CN106297801A (zh) 语音处理方法及装置
CN108326855A (zh) 一种机器人的交互方法、装置、设备以及存储介质
CN110602516A (zh) 基于视频直播的信息交互方法、装置及电子设备
TW200900967A (en) Multi-mode input method editor
CN103456299A (zh) 一种控制语音识别的方法和装置
KR20190046631A (ko) 자연어 프로세싱을 위한 시스템 및 방법
EP3593346B1 (en) Graphical data selection and presentation of digital content
CN109086276B (zh) 数据翻译方法、装置、终端及存储介质
CN111161739A (zh) 语音识别方法及相关产品
CN106713111B (zh) 一种添加好友的处理方法、终端及服务器
CN108345612A (zh) 一种问题处理方法和装置、一种用于问题处理的装置
CN109933198A (zh) 一种语义识别方法及装置
CN111968631A (zh) 智能设备的交互方法、装置、设备及存储介质
CN110517668A (zh) 一种中英文混合语音识别系统及方法
CN107424612A (zh) 处理方法、装置和机器可读介质
CN117253478A (zh) 一种语音交互方法和相关装置
CN113542797A (zh) 视频播放中的互动方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant