CN109119079B - 语音输入处理方法和装置 - Google Patents

语音输入处理方法和装置 Download PDF

Info

Publication number
CN109119079B
CN109119079B CN201810824842.7A CN201810824842A CN109119079B CN 109119079 B CN109119079 B CN 109119079B CN 201810824842 A CN201810824842 A CN 201810824842A CN 109119079 B CN109119079 B CN 109119079B
Authority
CN
China
Prior art keywords
editing
text data
determining
mode
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810824842.7A
Other languages
English (en)
Other versions
CN109119079A (zh
Inventor
王映理
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin ByteDance Technology Co Ltd
Original Assignee
Tianjin ByteDance Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin ByteDance Technology Co Ltd filed Critical Tianjin ByteDance Technology Co Ltd
Priority to CN201810824842.7A priority Critical patent/CN109119079B/zh
Publication of CN109119079A publication Critical patent/CN109119079A/zh
Application granted granted Critical
Publication of CN109119079B publication Critical patent/CN109119079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提出一种语音输入处理方法和装置,其中,方法包括:将当前获取的语音数据转换为文本数据,判断文本数据中是否包括预设的关键词,若包括,则对文本数据进行语义识别,确定当前文本数据对应的编辑方式及编辑对象,根据编辑方式,对编辑对象进行编辑。该方法实现了通过语音对文本进行编辑,提高了文本处理的智能化程度。同时,在识别到预设关键词时,开始通过语音进行编辑,避免了误操作,提高了操作的精准度。

Description

语音输入处理方法和装置
技术领域
本申请涉及语音处理术领域,尤其涉及一种语音输入处理方法和装置。
背景技术
目前,用户可以利用输入法在终端提供的文档中,或者浏览器的搜索框,或者聊天软件的输入框中输入文字。
在实际应用中,当输入的文字存在错误,或者用户想要改变文字的显示方式等,即当用户想要编辑文字时,仍然需要手动操作进行编辑,智能化程度较低。
发明内容
本申请实施例提出一种语音输入处理方法,以实现通过语音对文本进行编辑,大大提高了文本处理的智能化程度。
本申请实施例提出一种语音输入处理装置。
本申请实施例提出一种终端设备。
本申请实施例提出一种非暂态计算机可读存储介质。
本申请一方面实施例提出了一种语音输入处理方法,包括:
将当前获取的语音数据转换为文本数据;
判断所述文本数据中是否包括预设的关键词;
若包括,则对所述文本数据进行语义识别,确定所述当前文本数据对应的编辑方式及编辑对象;
根据所述编辑方式,对所述编辑对象进行编辑。
本申请实施例的语音输入处理方法,通过将当前获取的语音数据转换为文本数据,判断文本数据中是否包括预设的关键词,若包括,则对文本数据进行语义识别,确定当前文本数据对应的编辑方式及编辑对象,根据编辑方式,对编辑对象进行编辑。由此,实现了通过语音对文本进行编辑,提高了文本处理的智能化程度。同时,在识别到预设关键词时,开始通过语音进行编辑,避免了误操作,提高了操作的精准度。
本申请另一方面实施例提出了一种语音输入处理装置,包括:
转换模块,用于将当前获取的语音数据转换为文本数据;
判断模块,用于判断所述文本数据中是否包括预设的关键词;
第一确定模块,用于在文本数据中包括预设的关键词时,对所述文本数据进行语义识别,确定所述当前文本数据对应的编辑方式及编辑对象;
编辑模块,用于根据所述编辑方式,对所述编辑对象进行编辑。
本申请实施例的语音输入处理装置,通过将当前获取的语音数据转换为文本数据,判断文本数据中是否包括预设的关键词,若包括,则对文本数据进行语义识别,确定当前文本数据对应的编辑方式及编辑对象,根据编辑方式,对编辑对象进行编辑。由此,实现了通过语音对文本进行编辑,提高了文本处理的智能化程度。同时,在识别到预设关键词时,开始通过语音进行编辑,避免了误操作,提高了操作的精准度。
本申请另一方面实施例提出了一种终端设备,包括:存储器和处理器,其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如上述一方面实施例所述的语音输入处理方法。
本申请另一方面实施例提出了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述一方面实施例所述的语音输入处理方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例提供的一种语音输入处理方法的流程示意图;
图2为本申请实施例提供的一种确定当前文本数据对应的编辑方式及编辑对象的方法的流程示意图;
图3为本申请实施例提供的另一种确定当前文本数据对应的编辑方式及编辑对象的方法的流程示意图;
图4为本申请实施例提供的另一种语音输入处理方法的流程示意图;
图5为本申请实施例提供的一种语音输入处理装置的结构示意图;
图6是图示根据本申请实施例的终端设备的硬件结构示意图;
图7是图示根据本申请的实施例的非暂态计算机可读存储介质的示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的语音输入处理方法和装置。
本申请实施例,针对相关技术中在输入文字的过程中,仍然需要手动编辑文本的问题,本申请实施例提供一种语音输入处理方法。
本申请实施例的语音输入处理方法,通过将当前获取的语音数据转换为文本数据,判断文本数据中是否包括预设的关键词,若包括,则对文本数据进行语义识别,确定当前文本数据对应的编辑方式及编辑对象,根据编辑方式,对编辑对象进行编辑。由此,实现了通过语音对文本进行编辑,提高了文本处理的智能化程度。同时,在识别到预设关键词时,开始通过语音进行编辑,避免了误操作,提高了操作的精准度。
图1为本申请实施例提供的一种语音输入处理方法的流程示意图。
本申请实施例提供的语音输入处理方法,可以由本申请提供的语音输入处理装置执行,上述装置可配置于终端设备中,以实现通过语音对文本进行编辑。
本实施例中,终端设备可以是手机、平板电脑、个人数字助理、等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
如图1所示,该语音输入处理方法包括:
步骤101,将当前获取的语音数据转换为文本数据。
作为一种应用场景,本申请实施例的语音输入处理方法,可以对文档中的文本进行编辑,当用户在终端设备的文档中输入文字和标点后,可以通过终端设备上设置的麦克风实时采集语音。在采集到语音后,通过语音识别技术将获取的语音数据转换为文本数据,以判断是否对文档中的文本进行编辑,例如进行复制、粘贴、替换等等。
作为另一种应用场景,在用户通过聊天软件聊天的过程中,可以通过终端设备上设置的麦克风阵列实时采集语音。在采集到语音后,将获取的语音数据转换为文本数据,对获取的语音数据识别为文本数据,以确定是否对输入框中的文字或者聊天记录中的文字进行编辑。
需要说明的是,上述文档中的文字或者输入框中的文字,可以是用户通过键盘等输入的,也可以是通过语音输入的文字,本实施例对此不作限制。并且,上述应用场景仅是示例,本申请实施例提出的语音输入处理方法,还可以应用在其他需要对文字进行编辑的场景中。
步骤102,判断文本数据中是否包括预设的关键词。
为了使编辑更加精准,本实施例中,可以预先设置关键词,通过关键字,确定是否开始进行编辑。其中,预设的关键词可以是一个或者多个。
当预设的关键词为一个时,将文本数据中的每个字符与预设的关键词进行比对,当文本数据中存在连续的字符组成的词,与预设的关键词一致时,可以认为文本数据中包括预设的关键词。
当预设的关键词有多个时,可以分别将文本数据与预设关键词进行比对,当文本数据与其中一个关键词一致时,可以确定文本数据中包括预设的关键词。
需要说明的是,预设的关键词在文本数据中的位置,可以是在句首,也是在句尾,本实施例对此不作限定。
举例来说,预设关键词为“小欧”,将当前获取的语音数据转换为的文本数据为“小欧,将上一句话中的简易换成易用”,通过比对可以确定文本数据中包括预设的关键词“小欧”。当然,文本数据也可以为“将上一句话中的简易换成易用,小欧”。
步骤103,若包括,则对文本数据进行语义识别,确定当前文本数据对应的编辑方式及编辑对象。
本实施例中,当文本数据包括预设的关键词时,说明当前获取的语音数据是用于对文字进行编辑的语音。
在确定文本数据中包括预设的关键词后,根据文本数据确定编辑方式及编辑对象。其中,编辑方式包括但不限于保存、复制、粘贴、剪切、替换、设置样式等等,编辑对象是指需要进行处理的文本、文档等等。其中,设置样式包括改变字体的颜色、大小、粗细等,或者改变段落间距等等。
具体地,对文本数据进行语义识别,确定当前文本数据对应的编辑方式及编辑对象。作为一种可能的实现方式,预先设置编辑方式对应的关键词,对文本数据进行分词处理,将分词与关键词进行匹配,当分词与关键词匹配时可以确定该分词对应的编辑方式。在确定编辑方式后,可以根据文本数据中与编辑方式匹配的分词,确定编辑对象。
例如,编辑方式“复制”对应的关键词为“复制、拷贝”,编辑方式“替换”对应的关键词有“替换、换成、修改”。文本数据为“小欧,将上一句话中的简易换成易用”,对该文本进行分词处理,将各个分词分别与编辑方式对应的关键词进行匹配,确定文本数据中“换成”与编辑方式“替换”对应的关键词匹配,则可以确定编辑方式为“替换”。在确定文本数据中“换成”与编辑方式“替换”匹配后,可根据“换成”确定编辑对象为“简易”。
步骤104,根据编辑方式,对编辑对象进行编辑。
本实施例中,在确定编辑方式和编辑对象后,可根据编辑对象在需要编辑的文本中查找到需要处理的文字,根据编辑方式和编辑对象进行编辑。
本实施例中,通过将当前获取的语音数据转换为文本数据,在确定文本数据中包括预设的关键词时,对文本数据进行语义识别,确定当前文本数据对应的编辑方式及编辑对象,根据编辑方式,对编辑对象进行编辑,从而实现了通过语音对文本编辑,大大提高了文本处理的智能化程度。
对于上述对文本数据进行语义识别,确定当前文本数据对应的编辑方式及编辑对象,作为一种可能的实现方式,可预先设置语义模型,通过语义模型确定编辑方式和编辑对象,下面结合图2进行详细说明。图2为本申请实施例提供的一种确定当前文本数据对应的编辑方式及编辑对象的方法的流程示意图。
如图2所示,该确定当前文本数据对应的编辑方式及编辑对象的方法包括:
步骤201,利用预设的各语义模型,对文本数据进行语义识别,以确定文本数据与各语义模型的匹配度。
本实施例中,针对不同的编辑方式,可以预先利用各种编辑方式对应的文本数据,通过模型训练得到各编辑方式对应的语义模型。
在获得文本数据后,将文本数据输入到各语义模型中,通过语义模型对文本数据进行语义识别,各语义模型输出文本数据与各语义模型的匹配度。
步骤202,根据文本数据与各语义模型的匹配度,确定编辑方式及编辑对象。
本实施例中,可以将与文本数据匹配度最高的语义模型,输出的编辑方式和编辑对象,确定为当前文本数据对应的编辑方式和编辑对象。
作为另一种可能的实现方式,可预先设置各编辑方式对应的目标文本,根据文本数据和目标文本,确定编辑方式,之后根据编辑方式确定编辑对象。下面结合图3进行详细说明。
图3为本申请实施例提供的另一种确定当前文本数据对应的编辑方式及编辑对象的方法的流程示意图。
步骤301,根据文本数据与各编辑方式对应的目标文本的相似度,确定文本数据对应的编辑方式。
本实施例中,可预先建立各编辑方式与目标文本的对应关系。例如,编辑方式“替换”对应的目标文本为“将A换成B”,编辑方式“复制”对应的目标文本为“复制C”。
需要说明的是,编辑方式可以对应多个目标文本,例如,编辑方式“替换”对应的目标文本有“将A换成B”、“将A修改为B”、“用B替换A”、“将A替换为B”等等。目标文本的丰富性可以大大提高处理的精准度。
在获取文本数据后,将文本数据与各编辑方式对应的目标文本进行比对,得到文本数据与各编辑方式对应的目标文本的相似度,将相似度最高的目标文本对应的编辑方式,确定为当前文本数据的编辑方式。
步骤302,根据编辑方式,确定对象识别方式。
其中,对象识别方式,是指用于识别当前文本数据中编辑对象的方式。
例如,编辑方式为“替换”,对应的对象识别方式可能为:“替换”词前的主语为编辑对象;或者,编辑方式为“删除”,对应的对象识别方式可能为:文本数据中的宾语为编辑对象等等。
步骤303,根据对象识别方式,对文本数据进行识别处理,确定编辑对象。
比如,根据编辑方式“替换”,确定对象识别方式为:“替换”词前的主语为编辑对象。之后对文本数据“小欧,将上一句话中的简易换成易用”进行识别处理,得到编辑对象为“简易”。
在利用上述方式,确定编辑方式和编辑对象后,可根据编辑方式,对编辑对象进行编辑。
在实际应用中,编辑一般是对之前输入的文本进行编辑,由此,本实施例中,根据编辑方式,对编辑对象进行编辑之前,可以先确定历史文本数据中待编辑的目标编辑对象,进而对历史文本数据进行编辑。下面结合图4进行详细说明。
图4为本申请实施例提供的另一种语音输入处理方法的流程示意图。
如图4所示,该语音输入处理方法包括:
步骤401,将当前获取的语音数据转换为文本数据。
步骤402,判断文本数据中是否包括预设的关键词。
步骤403,若包括,则对文本数据进行语义识别,确定当前文本数据对应的编辑方式及编辑对象。
本实施例中,步骤401-步骤403,与上述实施例中步骤101-步骤103类似,故在此不再赘述。
步骤404,确定N个编辑对象分别对应的N个位置信息。
本实施例中,历史文本数据中,即需要进行编辑的文本中,可能会存在一个或者多个编辑对象。
在确定文本数据对应的编辑对象后,在历史文本数据中查找所有编辑对象,即N个编辑对象,并确定N个编辑对象对应的N个位置信息。
其中,位置信息包括但不限于编辑对象在历史文本数据中的位置、编辑对象的前后顺序、相邻文本数据等。
例如,从历史文本数据中第一字符开始,对历史文本数据中所有的字符编号,编辑对象在历史文本数据中的位置信息,可以是编辑对象是在历史文本数据中的编号。
编辑对象的前后顺序,可以指编辑对象是历史文本数据中的第几个编辑对象。例如,编辑对象为“科技”,历史文本数据中共有3个“科技”,编辑对象“科技”的前后顺序,可以是在历史文本数据的第一个“科技”、第二个“科技”、第三个“科技”。
例如,历史文本数据为“这是一幅中国地图”,编辑对象为“地图”,那么“中国”为“地图”的相邻文本数据。
步骤405,根据N个位置信息与编辑对象在文本数据中的位置信息的匹配度,确定目标编辑对象。
由于编辑具有针对性,在进行编辑之前,先确定需要进行编辑的编辑对象所在的位置,以确定目标编辑对象,进而对目标编辑对象进行编辑。例如,进行复制时,在需要进行编辑的文本中,先确定复制的开始位置和结束位置,再执行复制操作。
本实施例中,可比较历史文本数据中N个编辑对象对应的N个位置信息,与编辑对象在文本数据中的位置信息,以确定N个位置信息与编辑对象在文本数据中的位置信息的匹配度,并将与编辑对象在文本数据中的位置信息匹配度最高的位置信息对应的编辑对象,确定为目标编辑对象。
例如,编辑对象为“简单”,文本数据为“小欧,将最后一段中的简单修改为复杂”,文本数据中编辑对象“简单”的位置信息是“最后一段”,根据历史文本数据中所有编辑对象“简单”与编辑对象“简单”在文本数据中的位置信息的匹配度,可以确定历史文本数据中最后一段中的“简单”为目标编辑对象。
步骤406,根据编辑方式,对目标编辑对象进行编辑。
在确定目标编辑对象后,根据编辑方式对目标编辑对象进行编辑。
例如,文本数据为“小欧,复制第一段中的语文”,目标编辑对象为历史文本数据第一段中的“语文”一词,编辑方式为“复制”,则执行复制历史文本数据第一段中的“语文”的操作。
本实施例中,由于编辑方式“替换”涉及到编辑对象和编辑对象替换为的对象,因此在对目标编辑对象进行编辑之前,可先根据编辑对象、文本数据,确定编辑对象替换为的对象,进而根据编辑方式、替换为的对象,对目标编辑对象进行替换处理。
例如,文本数据为“小欧,将最后一段中的简单修改为复杂”,目标编辑对象是历史文本数据中最后一段中的“简单”一词,编辑方式为“替换”,目标编辑对象替换为的对象为“复杂”,则将历史文本数据中最后一段中的“简单”,替换为“复杂”。
本实施例中,通过根据N个编辑对象在历史文本数据中的位置信息,与编辑对象在文本数据中的位置信息的匹配度,确定目标编辑对象,进而实现对目标编辑对象进行编辑,提高了编辑的准确度。
为了实现上述实施例,本申请实施例还提出一种语音输入处理装置。图5为本申请实施例提供的一种语音输入处理装置的结构示意图。
如图5所示,该语音输入处理装置包括:转换模块510、判断模块520、第一确定模块530、编辑模块540。
转换模块510用于将当前获取的语音数据转换为文本数据。
判断模块520用于判断文本数据中是否包括预设的关键词。
第一确定模块530用于在文本数据中包括预设的关键词时,对文本数据进行语义识别,确定当前文本数据对应的编辑方式及编辑对象。
编辑模块540用于根据编辑方式,对编辑对象进行编辑。
在本申请实施例一种可能的实现方式中,第一确定模块530还用于:
利用预设的各语义模型,对文本数据进行语义识别,以确定文本数据与所述各语义模型的匹配度;
根据文本数据与各语义模型的匹配度,确定编辑方式及编辑对象。
在本申请实施例一种可能的实现方式中,第一确定模块530包括:
第一确定单元,用于根据文本数据与各编辑方式对应的目标文本的相似度,确定文本数据对应的编辑方式。
在本申请实施例一种可能的实现方式中,第一确定模块530还包括:
第二确定单元,用于在确定文本数据对应的编辑方式之后,根据编辑方式,确定对象识别方式;
第三确定单元,用于根据对象识别方式,对文本数据进行识别处理,确定编辑对象。
在本申请实施例一种可能的实现方式中,历史文本数据中包括N个编辑对象,其中,历史文本数据为根据获取的历史语音数据生成的文本数据;该装置还可包括:
第二确定模块,用于根据编辑方式,对编辑对象进行编辑之前,确定历史文本数据中待编辑的目标编辑对象。
在本申请实施例一种可能的实现方式中,第二确定模块还用于:
确定N个编辑对象分别对应的N个位置信息,其中位置信息包括以下信息中的至少一个:在历史文本数据中的位置、前后顺序、相邻文本数据;
根据N个位置信息与编辑对象在所述文本数据中的位置信息的匹配度,确定目标编辑对象。
需要说明的是,前述对语音输入处理方法实施例的解释说明,也适用于该实施例的语音输入处理装置,故在此不再赘述。
本申请实施例的语音输入处理装置,本申请实施例的语音输入处理装置,通过将当前获取的语音数据转换为文本数据,判断文本数据中是否包括预设的关键词,若包括,则对文本数据进行语义识别,确定当前文本数据对应的编辑方式及编辑对象,根据编辑方式,对编辑对象进行编辑。由此,实现了通过语音对文本进行编辑,提高了文本处理的智能化程度。同时,在识别到预设关键词时,开始通过语音进行编辑,避免了误操作,提高了操作的精准度。
为了实现上述实施例,本申请实施例还提出一种终端设备,包括:存储器和处理器,其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如上述实施例所述的语音输入处理方法。
图6是图示根据本申请实施例的终端设备的硬件结构示意图。终端设备可以以各种形式来实施,本申请中的终端设备可以包括但不限于诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、车载终端设备、车载显示终端、车载电子后视镜等等的移动终端设备以及诸如数字TV、台式计算机等等的固定终端设备。
如图6所示,终端设备1100可以包括无线通信单元1110、A/V(音频/视频)输入单元1120、用户输入单元1130、感测单元1140、输出单元1150、存储器1160、接口单元1170、控制器1180和电源单元1190等等。图6示出了具有各种组件的终端设备,但是应理解的是,并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。
其中,无线通信单元1110允许终端设备1100与无线通信系统或网络之间的无线电通信。A/V输入单元1120用于接收音频或视频信号。用户输入单元1130可以根据用户输入的命令生成键输入数据以控制终端设备的各种操作。感测单元1140检测终端设备1100的当前状态、终端设备1100的位置、用户对于终端设备1100的触摸输入的有无、终端设备1100的取向、终端设备1100的加速或减速移动和方向等等,并且生成用于控制终端设备1100的操作的命令或信号。接口单元1170用作至少一个外部装置与终端设备1100连接可以通过的接口。输出单元1150被构造为以视觉、音频和/或触觉方式提供输出信号。存储器1160可以存储由控制器1180执行的处理和控制操作的软件程序等等,或者可以暂时地存储己经输出或将要输出的数据。存储器1160可以包括至少一种类型的存储介质。而且,终端设备1100可以与通过网络连接执行存储器1160的存储功能的网络存储装置协作。控制器1180通常控制终端设备的总体操作。另外,控制器1180可以包括用于再现或回放多媒体数据的多媒体模块。控制器1180可以执行模式识别处理,以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。电源单元1190在控制器1180的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。
本申请提出的语音输入处理方法的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施,本申请提出的语音输入处理方法的各种实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施,在一些情况下,本申请提出的语音输入处理方法的各种实施方式可以在控制器1180中实施。对于软件实施,本申请提出的语音输入处理方法的各种实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施,软件代码可以存储在存储器1160中并且由控制器1180执行。
为了实现上述实施例,本申请实施例提出了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述实施例所述的语音输入处理方法。
图7是图示根据本申请的实施例的非暂态计算机可读存储介质的示意图。如图7所示,根据本申请实施例的非暂态计算机可读存储介质800,其上存储有非暂态计算机可读指令801。当该非暂态计算机可读指令801由处理器运行时,执行前述的本申请各实施例的语音输入处理方法的全部或部分步骤。
在本说明书的描述中,此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种语音输入处理方法,其特征在,包括:
将当前获取的语音数据转换为文本数据;
判断所述文本数据中是否包括预设的关键词;
若包括,则对所述文本数据进行语义识别,确定当前文本数据对应的编辑方式及编辑对象;
根据所述编辑方式,对所述编辑对象进行编辑;
历史文本数据中包括 N 个编辑对象,其中,N 为大于等于 2 的整数,历史文本数据为根据获取的历史语音数据生成的文本数据;所述根据所述编辑方式,对所述编辑对象进行编辑之前,还包括:
确定所述 N 个编辑对象分别对应的 N 个位置信息,其中所述位置信息包括以下信息中的至少一个:在历史文本数据中的位置、前后顺序、相邻文本数据;
根据所述 N 个位置信息与所述编辑对象在所述文本数据中的位置信息的匹配度,确定目标编辑对象。
2.如权利要求 1 所述的方法,其特征在于,所述对所述文本数据进行语义识别,确定所述当前文本数据对应的编辑方式及编辑对象,包括:
利用预设的各语义模型,对所述文本数据进行语义识别,以确定所述文本数据与所述各语义模型的匹配度;
根据所述文本数据与所述各语义模型的匹配度,确定所述编辑方式及编辑对象。
3.如权利要求 1 所述的方法,其特征在于,所述对所述文本数据进行语义识别,确定所述当前文本数据对应的编辑方式,包括:
根据所述文本数据与各编辑方式对应的目标文本的相似度,确定所述文本数据对应的编辑方式。
4.如权利要求 3 所述的方法,其特征在于,所述确定所述文本数据对应的编辑方式之后,还包括:
根据所述编辑方式,确定对象识别方式;
根据所述对象识别方式,对所述文本数据进行识别处理,确定所述编辑对象。
5.一种语音输入处理装置,其特征在,包括:
转换模块,用于将当前获取的语音数据转换为文本数据;
判断模块,用于判断所述文本数据中是否包括预设的关键词;
第一确定模块,用于在文本数据中包括预设的关键词时,对所述文本数据进行语义识别,确定当前文本数据对应的编辑方式及编辑对象;
编辑模块,用于根据所述编辑方式,对所述编辑对象进行编辑;
第二确定模块,用于在所述编辑模块根据编辑方式,对编辑对象进行编辑之前,确定历史文本数据中 N 个编辑对象分别对应的 N 个位置信息,其中所述位置信息包括以下信息中的至少一个:在历史文本数据中的位置、前后顺序、相邻文本数据;根据所述 N 个位置信息与所述编辑对象在所述文本数据中的位置信息的匹配度,确定目标编辑对象;其中,N 为大于等于 2 的整数,历史文本数据为根据获取的历史语音数据生成的文本数据。
6.如权利要求 5 所述的装置,其特征在于,所述第一确定模块还用于:
利用预设的各语义模型,对所述文本数据进行语义识别,以确定所述文本数据与所述各语义模型的匹配度;
根据所述文本数据与所述各语义模型的匹配度,确定所述编辑方式及编辑对象。
7.一种终端设备,其特征在于,包括:存储器和处理器,其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求 1-4 中任一所述的语音输入处理方法。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求 1-4 中任一项所述的语音输入处理方法。
CN201810824842.7A 2018-07-25 2018-07-25 语音输入处理方法和装置 Active CN109119079B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810824842.7A CN109119079B (zh) 2018-07-25 2018-07-25 语音输入处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810824842.7A CN109119079B (zh) 2018-07-25 2018-07-25 语音输入处理方法和装置

Publications (2)

Publication Number Publication Date
CN109119079A CN109119079A (zh) 2019-01-01
CN109119079B true CN109119079B (zh) 2022-04-01

Family

ID=64863201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810824842.7A Active CN109119079B (zh) 2018-07-25 2018-07-25 语音输入处理方法和装置

Country Status (1)

Country Link
CN (1) CN109119079B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800330B (zh) * 2019-01-31 2021-03-23 北京经纬恒润科技股份有限公司 一种数据处理方法及装置
CN110347996B (zh) * 2019-07-15 2023-06-20 北京百度网讯科技有限公司 文字的修改方法、装置、电子设备及存储介质
CN111161735A (zh) * 2019-12-31 2020-05-15 安信通科技(澳门)有限公司 一种语音编辑方法及装置
CN113761843B (zh) * 2020-06-01 2023-11-28 华为技术有限公司 语音编辑方法、电子设备及计算机可读存储介质
CN112631481A (zh) * 2020-12-30 2021-04-09 航天信息软件技术有限公司 一种可编辑列表下的交互方法及系统
CN113378530A (zh) * 2021-06-28 2021-09-10 北京七维视觉传媒科技有限公司 语音编辑方法及装置、设备和介质
CN113672134B (zh) * 2021-07-30 2024-06-04 北京搜狗科技发展有限公司 媒体信息编辑方法、装置、计算机可读介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106527729A (zh) * 2016-11-17 2017-03-22 科大讯飞股份有限公司 非接触式输入方法和装置
CN106933561A (zh) * 2015-12-31 2017-07-07 北京搜狗科技发展有限公司 语音输入方法和终端设备
CN107066502A (zh) * 2017-01-04 2017-08-18 合网络技术(北京)有限公司 多媒体内容编辑方法及装置
CN107861932A (zh) * 2017-11-07 2018-03-30 成都野望数码科技有限公司 一种文本编辑方法、装置和系统以及一种终端设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8903714B2 (en) * 2011-12-21 2014-12-02 Nuance Communications, Inc. Concept search and semantic annotation for mobile messaging
CN105741838B (zh) * 2016-01-20 2019-10-15 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
CN108320733B (zh) * 2017-12-18 2022-01-04 上海科大讯飞信息科技有限公司 语音数据处理方法及装置、存储介质、电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933561A (zh) * 2015-12-31 2017-07-07 北京搜狗科技发展有限公司 语音输入方法和终端设备
CN106527729A (zh) * 2016-11-17 2017-03-22 科大讯飞股份有限公司 非接触式输入方法和装置
CN107066502A (zh) * 2017-01-04 2017-08-18 合网络技术(北京)有限公司 多媒体内容编辑方法及装置
CN107861932A (zh) * 2017-11-07 2018-03-30 成都野望数码科技有限公司 一种文本编辑方法、装置和系统以及一种终端设备

Also Published As

Publication number Publication date
CN109119079A (zh) 2019-01-01

Similar Documents

Publication Publication Date Title
CN109119079B (zh) 语音输入处理方法和装置
US10923118B2 (en) Speech recognition based audio input and editing method and terminal device
CN108647305B (zh) 文档格式转换方法和装置
CN109817210B (zh) 语音写作方法、装置、终端和存储介质
JP5738245B2 (ja) ショートハンド・オン・キーボード・インタフェースにおいてテキスト入力を改善するためのシステム、コンピュータ・プログラムおよび方法(キーボード上のショートハンド・オン・キーボード・インタフェースにおけるテキスト入力の改良)
CN111767021A (zh) 语音交互方法、车辆、服务器、系统和存储介质
CN110164435A (zh) 语音识别方法、装置、设备及计算机可读存储介质
CN104282302A (zh) 用于识别语音和文本的设备和方法
CN109684638B (zh) 分句方法及其装置、电子设备、计算机可读存储介质
CN108664142B (zh) 具有文档间自学习功能的输入法
CN109272995A (zh) 语音识别方法、装置及电子设备
CN101561725B (zh) 一种手写快速输入的方法和系统
CN106161873A (zh) 一种视频信息提取推送方法及系统
CN109471955B (zh) 视频片段的定位方法、计算设备及存储介质
CN109408506A (zh) 表格数据处理方法和装置
CN114223021A (zh) 电子装置及其处理手写输入的方法
CN107977089B (zh) 一种输入方法和装置、一种用于输入的装置
CN117496972B (zh) 一种音频识别方法、音频识别装置、车辆和计算机设备
CN110992960A (zh) 控制方法、装置、电子设备和存储介质
CN110018746B (zh) 通过多种输入模式来处理文档
JP2017102939A (ja) オーサリング装置、オーサリング方法、およびプログラム
CN112328308A (zh) 用于识别文本的方法和装置
CN115565529A (zh) 基于语音识别的3d模型控制方法、装置、设备和存储介质
CN111506715B (zh) 查询方法、装置、电子设备及存储介质
CN110010131B (zh) 一种语音信息处理的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant