CN113591441A - 语音编辑方法及装置、存储介质及电子设备 - Google Patents
语音编辑方法及装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN113591441A CN113591441A CN202110873669.1A CN202110873669A CN113591441A CN 113591441 A CN113591441 A CN 113591441A CN 202110873669 A CN202110873669 A CN 202110873669A CN 113591441 A CN113591441 A CN 113591441A
- Authority
- CN
- China
- Prior art keywords
- sentence
- candidate
- statement
- sentences
- edited
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 109
- 238000003780 insertion Methods 0.000 claims abstract description 248
- 230000037431 insertion Effects 0.000 claims abstract description 248
- 230000008569 process Effects 0.000 claims abstract description 52
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 30
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 30
- 230000014509 gene expression Effects 0.000 claims description 24
- 238000006243 chemical reaction Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 20
- 238000002372 labelling Methods 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000012986 modification Methods 0.000 abstract description 5
- 230000004048 modification Effects 0.000 abstract description 5
- 238000012549 training Methods 0.000 description 24
- 239000013589 supplement Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 3
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004424 eye movement Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供一种语音编辑方法及装置、存储介质及电子设备,该方法包括:获取用户输入的编辑命令以及待编辑语句,在编辑命令不为描述性命令时,确定编辑命令为目标语句,将目标语句和待编辑语句输入替换模块和插入模块,并将替换模块输出的各个候选替换语句和空短语预测概率以及插入模块输出的各个候选插入语句均输入综合模块中,使得综合模块选出目标候选语句,并将每个目标候选语句向用户展示,接收到用户反馈的选择指令,并在选择指令中包含语句标识时,将与语句标识对应的目标候选语句替换待编辑语句,可预测出用户想要修改的文本内容,为用户提供更加合适的例句,整个过程无需指定修改的位置,输入的信息少、流程短,有效提高语音编辑的效率。
Description
技术领域
本发明涉及语音识别技术领域,特别涉及一种语音编辑方法及装置、存储介质及电子设备。
背景技术
随着语音技术的成熟和发展,语音技术应用的领域越来越广泛,目前大部分的智能终端设备、智能车载设备均集成了智能语音识别系统,智能语音识别系统可将采集到的用户的语音转换成用户需要的文本内容,由此为用户的交流提供了更加便利的服务。
目前的智能语音识别系统将语音转换成语音文本的过程中,会存在文字转换出错或是需要对语音文本进行优化的情况,目前在编辑语音文本时,通常需要用户手动选择或通过语音复述的方式选取需要编辑的文本后,最后再输入修改后的内容,从而完成对文本的编辑。目前这种通过语音对文本编辑的方式,流程长、需要输入的信息多,导致编辑的效率低下。
发明内容
有鉴于此,本发明提供一种语音编辑方法及装置、存储介质及电子设备,本发明可以根据用户输入的目标语句预测出用户需要变更的文本内容,并为用户提供更加符合修改意图的语句,在无需指定修改的文本位置的情况下,实现文本的编辑,整个编辑的过程仅需要用户输入少量的信息,有效缩短了使用语音对文本的编辑流程,有效的提高语音编辑的效率。
为实现上述目的,本发明实施例提供如下技术方案:
一种语音编辑方法,包括:
获取用户输入的编辑命令以及待编辑语句,其中,所述待编辑语句为所述用户在待编辑文本中选中的语句,所述待编辑文本为将所述用户输入的转换语音转换为文字后的文本,所述编辑命令为将所述用户基于所述待编辑语句输入命令语音转换为文字后的文本;
判断所述编辑命令是否为描述性命令;
若所述编辑命令不为描述性命令,则将所述编辑命令确定为目标语句;
将所述目标语句和所述待编辑语句输入预先训练完成的替换模块和插入模块;
触发所述插入模块对所述目标语句和所述待编辑语句进行处理,输出M个候选插入语句,其中,M为正整数;
触发所述替换模块对所述目标语句和所述待编辑语句进行处理,输出N个候选替换语句和空短语预测概率,其中,N为正整数;
将所述空短语预测概率、各个所述候选替换语句以及各个所述候选插入语句输入预设的综合模块中;
触发所述综合模块从各个所述候选替换语句和各个所述候选插入语句中确定目标候选语句,并将各个所述目标候选语句向所述用户进行展示;
接收所述用户基于各个所述目标候选语句反馈的选择指令,确定所述选择指令中是否包含语句标识;
若所述选择指令中包含语句标识,则将与所述选择指令中的语句标识所对应的目标候选语句替换所述待编辑语句。
上述的方法,可选的,在获取用户输入的编辑命令以及待编辑语句前,还包括:
在接收到用户发送的语音转换指令时,采集所述用户的转换语音,并调用预设的语音转换模块将所述转换语音转换成文本;
将所述文本输入预设的口语移除模块,使得所述口语移除模块对所述文本中的口语词进行标注,并得到与所述文本对应的标注序列,基于所述标注序列将所述文本中的口语词移除,并将移除口语词后的文本作为待编辑文本向所述用户展示。
上述的方法,可选的,所述判断所述编辑命令是否为描述性命令,包括:
将所述编辑命令与预设的各个正则表达式进行匹配;
判断是否存在与所述编辑命令对应的正则表达式;
若存在与所述编辑命令对应的正则表达式,则确定所述编辑命令为描述性命令;
若不存在与所述编辑命令对应的正则表达式,则确定所述编辑命令不为描述性命令。
上述的方法,可选的,所述触发所述插入模块对所述目标语句和所述待编辑语句进行处理,输出M个候选插入语句,包括:
所述插入模块对所述待编辑语句进行分词处理,得到与所述待编辑语句对应的至少两个插入位置;
对于所述待编辑语句的每个插入位置,将所述目标语句插入所述插入位置中,得到与所述插入位置对应的第一候选语句;
将每个所述第一候选语句输入预设的语句计分模型中,使得所述语句计分模型输出每个所述第一候选语句的第一候选分数;
按照第一候选分数从高到低的顺序选取第一候选语句,直至选取的第一候选语句的个数为M个,并将选择的各个第一候选语句均确定为候选插入语句。
上述的方法,可选的,所述触发所述替换模块对所述目标语句和所述待编辑语句进行处理,输出N个候选替换语句和空短语预测概率,包括:
所述替换模块基于神经网络模型对所述目标语句和所述待编辑语句进行处理,以得到与所述目标语句和所述待编辑语句对应的向量,并基于预设词表限定策略对所述向量进行处理,构建与所述待编辑语句对应的搜索树,其中,所述搜索树中包含多个子节点,每个所述子节点中的词均由所述待编辑语句中的文字组成;
基于预设的集束搜索策略,对所述搜索树中的各个子节点进行搜索,以生成与所述待编辑语句对应的多个错误短句以及空短语预测概率;
确定每个错误短句的被替换概率,并按照被替换概率从高到低的顺序选取错误短句,直至选取的错误短语的个数与预设的短句个数一致,将选取每个的错误短句均确定为目标错误短句;
对于每个所述目标错误短句,在所述待编辑语句中确定与所述目标错误短句对应的内容,并将所述目标语句替换所述待编辑语句中与所述目标错误短句对应的内容,从而得到与所述目标错误短句对应的替换例句;
在待编辑语句和所述目标语句满足预设的各个补充规则中的任意一个时,基于所述待编辑语句和所述目标语句生成至少一个补充例句;
将每个所述替换例句以及每个所述补充例句均确定为第二候选语句,并将每个所述第二候选语句输入预设的语句计分模型中,使得所述语句计分模型输出每个所述第二候选语句的第二候选分数;
按照第二候选分数从高到低的顺序选取第二候选语句,直至选取的第二候选语句的个数为N个,并将选择的各个第二候选语句均确定为候选替换语句。
上述的方法,可选的,所述触发所述综合模块从各个所述候选替换语句和各个所述候选插入语句中确定目标候选语句,包括:
所述综合模块确定每个所述候选替换语句以及每个所述候选插入语句的语句分数;
在各个所述候选替换语句的语句分数中确定数值最大的语句分数,并将数值最大的语句分数确定为第一语句分数;
在各个所述候选插入语句的语句分数中确定数值最小的语句分数,并将数值最小的语句分数确定为第二语句分数;
判断所述第二语句分数是否大于所述第一语句分数;
若所述第二语句分数大于所述第一语句分数,则基于预设的第一选取规则确定第一替换语句数和第一插入语句数,并按照候选替换语句的语句分数从高到低的顺序选取候选替换语句,直至选取的候选替换语句的数量等于所述第一替换语句数,以及按照候选插入语句的语句分数从高到低的顺序选取候选插入语句,直至选取的候选插入语句的数量等于所述第一插入语句数,将所选取的候选插入语句以及所选取的候选替换语句均确定为目标候选语句;
若所述第二语句分数未大于所述第一语句分数,则确定所述空短语预测概率是否位于预设的第一区间;
若所述空短语预测概率位于所述第一区间,则按照候选替换语句的语句分数从高到低的顺序选取候选替换语句,直至选取的候选替换语句的数量等于所述第一替换语句数,以及按照候选插入语句的语句分数从高到低的顺序选取候选插入语句,直至选取的候选插入语句的数量等于所述第一插入语句数,将所选取的候选插入语句以及所选取的候选替换语句均确定为目标候选语句;
若所述空短语预测概率不位于所述第一区间,则确定所述空短语预测概率是否位于预设的第二区间;
若所述空短语预测概率位于所述第二区间,则基于预设的第二候选规则确定第二替换语句数和第二插入语句数,并按照候选替换语句的语句分数从高到低的顺序选取候选替换语句,直至选取的候选替换语句的数量等于所述第二替换语句数,以及按照候选插入语句的语句分数从高到低的顺序选取候选插入语句,直至选取的候选插入语句的数量等于所述第二插入语句数,将所选取的候选插入语句以及所选取的候选替换语句均确定为目标候选语句;
若所述空短语预测概率不位于所述第二区间,则基于预设的第三候选规则确定第三替换语句数和第三插入语句数,并按照候选替换语句的语句分数从高到低的顺序选取候选替换语句,直至选取的候选替换语句的数量等于所述第三替换语句数,以及按照候选插入语句的语句分数从高到低的顺序选取候选插入语句,直至选取的候选插入语句的数量等于所述第三插入语句数,将所选取的候选插入语句以及所选取的候选替换语句均确定为目标候选语句。
上述的方法,可选的,还包括:
若确定所述编辑命令为描述性命令时,则确定所述描述性命令的描述类型,并对所述待编辑语句执行与所述描述类型对应的编辑操作。
一种语音编辑装置,包括:
获取单元,用于获取用户输入的编辑命令以及待编辑语句,其中,所述待编辑语句为所述用户在待编辑文本中选中的语句,所述待编辑文本为将所述用户输入的转换语音转换为文字后的文本,所述编辑命令为将所述用户基于所述待编辑语句输入命令语音转换为文字后的文本;
判断单元,用于判断所述编辑命令是否为描述性命令;
确定单元,用于若所述编辑命令不为描述性命令,则将所述编辑命令确定为目标语句;
第一输入单元,用于将所述目标语句和所述待编辑语句输入预先训练完成的替换模块和插入模块;
第一触发单元,用于触发所述插入模块对所述目标语句和所述待编辑语句进行处理,输出M个候选插入语句,其中,M为正整数;
第二触发单元,用于触发所述替换模块对所述目标语句和所述待编辑语句进行处理,输出N个候选替换语句和空短语预测概率,其中,N为正整数;
第二输入单元,用于将所述空短语预测概率、各个所述候选替换语句以及各个所述候选插入语句输入预设的综合模块中;
展示单元,用于触发所述综合模块从各个所述候选替换语句和各个所述候选插入语句中确定目标候选语句,并将各个所述目标候选语句向所述用户进行展示;
接收单元,用于接收所述用户基于各个所述目标候选语句反馈的选择指令,确定所述选择指令中是否包含语句标识;
替换单元,用于若所述选择指令中包含语句标识,则将与所述选择指令中的语句标识所对应的目标候选语句替换所述待编辑语句。
采集单元,用于在接收到用户发送的语音转换指令时,采集所述用户的转换语音,并调用预设的语音转换模块将所述转换语音转换成文本;
移除单元,用于将所述文本输入预设的口语移除模块,使得所述口语移除模块对所述文本中的口语词进行标注,并得到与所述文本对应的标注序列,基于所述标注序列将所述文本中的口语词移除,并将移除口语词后的文本作为待编辑文本向所述用户展示。
上述的装置,可选的,还包括:
采集单元,用于在接收到用户发送的语音转换指令时,采集所述用户的转换语音,并调用预设的语音转换模块将所述转换语音转换成文本;
移除单元,用于将所述文本输入预设的口语移除模块,使得所述口语移除模块对所述文本中的口语词进行标注,并得到与所述文本对应的标注序列,基于所述标注序列将所述文本中的口语词移除,并将移除口语词后的文本作为待编辑文本向所述用户展示。
上述的装置,可选的,所述判断单元,包括:
匹配子单元,用于将所述编辑命令与预设的各个正则表达式进行匹配;
第一判断子单元,用于判断是否存在与所述编辑命令对应的正则表达式;
第一确定子单元,用于若存在与所述编辑命令对应的正则表达式,则确定所述编辑命令为描述性命令;
第二确定子单元,用于若不存在与所述编辑命令对应的正则表达式,则确定所述编辑命令不为描述性命令。
上述的装置,可选的,所述第一触发单元,包括:
获得子单元,用于所述插入模块对所述待编辑语句进行分词处理,得到与所述待编辑语句对应的至少两个插入位置;
插入子单元,用于对于所述待编辑语句的每个插入位置,将所述目标语句插入所述插入位置中,得到与所述插入位置对应的第一候选语句;
输出子单元,用于将每个所述第一候选语句输入预设的语句计分模型中,使得所述语句计分模型输出每个所述第一候选语句的第一候选分数;
第一选取子单元,用于按照第一候选分数从高到低的顺序选取第一候选语句,直至选取的第一候选语句的个数为M个,并将选择的各个第一候选语句均确定为候选插入语句。
上述的装置,可选的,所述第二触发单元,包括:
构建子单元,用于所述替换模块基于神经网络模型对所述目标语句和所述待编辑语句进行处理,以得到与所述目标语句和所述待编辑语句对应的向量,并基于预设词表限定策略对所述向量进行处理,构建与所述待编辑语句对应的搜索树,其中,所述搜索树中包含多个子节点,每个所述子节点中的词均由所述待编辑语句中的文字组成;
第一生成子单元,用于基于预设的集束搜索策略,对所述搜索树中的各个子节点进行搜索,以生成与所述待编辑语句对应的多个错误短句以及空短语预测概率;
第三确定子单元,用于确定每个错误短句的被替换概率,并按照被替换概率从高到低的顺序选取错误短句,直至选取的错误短语的个数与预设的短句个数一致,将选取每个的错误短句均确定为目标错误短句;
替换子单元,用于对于每个所述目标错误短句,在所述待编辑语句中确定与所述目标错误短句对应的内容,并将所述目标语句替换所述待编辑语句中与所述目标错误短句对应的内容,从而得到与所述目标错误短句对应的替换例句;
第二生成子单元,用于在待编辑语句和所述目标语句满足预设的各个补充规则中的任意一个时,基于所述待编辑语句和所述目标语句生成至少一个补充例句;
第四确定子单元,用于将每个所述替换例句以及每个所述补充例句均确定为第二候选语句,并将每个所述第二候选语句输入预设的语句计分模型中,使得所述语句计分模型输出每个所述第二候选语句的第二候选分数;
第二选取子单元,用于按照第二候选分数从高到低的顺序选取第二候选语句,直至选取的第二候选语句的个数为N个,并将选择的各个第二候选语句均确定为候选替换语句。
上述的装置,可选的,所述展示单元,包括:
第五确定子单元,用于所述综合模块确定每个所述候选替换语句以及每个所述候选插入语句的语句分数;
第六确定子单元,用于在各个所述候选替换语句的语句分数中确定数值最大的语句分数,并将数值最大的语句分数确定为第一语句分数;
第七确定子单元,用于在各个所述候选插入语句的语句分数中确定数值最小的语句分数,并将数值最小的语句分数确定为第二语句分数;
第二判断子单元,用于判断所述第二语句分数是否大于所述第一语句分数;
第三选取子单元,用于若所述第二语句分数大于所述第一语句分数,则基于预设的第一选取规则确定第一替换语句数和第一插入语句数,并按照候选替换语句的语句分数从高到低的顺序选取候选替换语句,直至选取的候选替换语句的数量等于所述第一替换语句数,以及按照候选插入语句的语句分数从高到低的顺序选取候选插入语句,直至选取的候选插入语句的数量等于所述第一插入语句数,将所选取的候选插入语句以及所选取的候选替换语句均确定为目标候选语句;
第八确定子单元,用于若所述第二语句分数未大于所述第一语句分数,则确定所述空短语预测概率是否位于预设的第一区间;
第四选取子单元,用于若所述空短语预测概率位于所述第一区间,则按照候选替换语句的语句分数从高到低的顺序选取候选替换语句,直至选取的候选替换语句的数量等于所述第一替换语句数,以及按照候选插入语句的语句分数从高到低的顺序选取候选插入语句,直至选取的候选插入语句的数量等于所述第一插入语句数,将所选取的候选插入语句以及所选取的候选替换语句均确定为目标候选语句;
第九确定子单元,用于若所述空短语预测概率不位于所述第一区间,则确定所述空短语预测概率是否位于预设的第二区间;
第五选取子单元,用于若所述空短语预测概率位于所述第二区间,则基于预设的第二候选规则确定第二替换语句数和第二插入语句数,并按照候选替换语句的语句分数从高到低的顺序选取候选替换语句,直至选取的候选替换语句的数量等于所述第二替换语句数,以及按照候选插入语句的语句分数从高到低的顺序选取候选插入语句,直至选取的候选插入语句的数量等于所述第二插入语句数,将所选取的候选插入语句以及所选取的候选替换语句均确定为目标候选语句;
第六选取子单元,用于若所述空短语预测概率不位于所述第二区间,则基于预设的第三候选规则确定第三替换语句数和第三插入语句数,并按照候选替换语句的语句分数从高到低的顺序选取候选替换语句,直至选取的候选替换语句的数量等于所述第三替换语句数,以及按照候选插入语句的语句分数从高到低的顺序选取候选插入语句,直至选取的候选插入语句的数量等于所述第三插入语句数,将所选取的候选插入语句以及所选取的候选替换语句均确定为目标候选语句。
上述的装置,可选的,还包括:
执行单元,用于若确定所述编辑命令为描述性命令时,则确定所述描述性命令的描述类型,并对所述待编辑语句执行与所述描述类型对应的编辑操作。
一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述的语音编辑方法。
一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如上述的语音编辑方法。
与现有技术相比,本发明具有以下优点:
本发明提供一种语音编辑方法及装置、存储介质及电子设备,该方法包括:获取用户输入的编辑命令以及待编辑语句,在编辑命令不为描述性命令时,确定编辑命令为目标语句,将目标语句和待编辑语句输入替换模块和插入模块,并将替换模块输出的N个候选替换语句和空短语预测概率以及插入模块输出的M个候选插入语句均输入综合模块中,使得综合模块选出目标候选语句,并将每个目标候选语句向用户展示,接收到用户反馈的选择指令,并在选择指令中包含语句标识时,将与语句标识对应的目标候选语句替换待编辑语句,由此无需用户指定需要修改的文本的位置,在编辑的过程中只需要输入正确的文本,就可预测出用户想要修改的文本内容,由此生成更加符合用户修改意图的文本,本发明有效的缩短了语音编辑的流程,在语音编辑的过程中只需输入少量的信息,进而使得语音编辑更加简便,由此可以提高语音编辑的效率,也为用户提供更加优质的服务。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种语音编辑方法的方法流程图;
图2为本发明实施例提供的一种语音编辑方法的另一方法流程图;
图3为本发明实施例提供的一种语音编辑方法的又一方法流程图;
图4为本发明实施例提供的一种语音编辑方法的场景实例图;
图5为本发明实施例提供的一种语音编辑装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了给用户提供一种更加简便的编辑方式,本发明提供一种语音编辑方法,使得用户无需通过语音或手动选择的方式指定的错误文本的位置,就通过语音便实现文本的编辑,并且编辑的过程简单,在提高语音编辑的效率的同时还给用户提供了极大的便利,为用户提供更加优质的服务,并且还提高了编辑的效率。
本发明实施例提供一种语音编辑方法,该方法可应用在智能语音编辑系统中,该智能语音编辑系统可由智能计算机设备构建而成,本发明的执行主体为智能语音编辑系统的服务器或处理器,本发明提供的方法的其中一种流程图如图1所示,具体说明如下所述:
S101、获取用户输入的编辑命令以及待编辑语句。
本发明中的待编辑语句为所述用户在待编辑文本中选中的语句,所述待编辑文本为将所述用户输入的转换语音转换为文字后的文本,所述编辑命令为将所述用户基于所述待编辑语句输入命令语音转换为文字后的文本,其中,转换语音为用户需要转换成文本内容的语音。
获取用户输入的编辑命令及待编辑语句的方式有多种,其中一种方式是在将文本中的句子逐一向用户进行展示的情况下,接收到用户输入的命令语音时,将当前向用户展示的句子作为待编辑语句,并将命令语音转换成文字,以得到编辑命令,其中,用户输入的命令语音所转换成的文字可为短语或是句子。
S102、判断所述编辑命令是否为描述性命令;若所述编辑命令不为描述性命令,则执行S103;若所述编辑命令为描述性命令,则执行S112。
判断编辑命令是否为描述性命令的具体过程如下所述:
将所述编辑命令与预设的各个正则表达式进行匹配;
判断是否存在与所述编辑命令对应的正则表达式;
若存在与所述编辑命令对应的正则表达式,则确定所述编辑命令为描述性命令;
若不存在与所述编辑命令对应的正则表达式,则确定所述编辑命令不为描述性命令。
不同的正则表达式对应不同的句法,不同的句法对应不同类型的描述性命令,描述性命令具体可包含插入命令、替换命令和删除命令,而不同类型的命令对应不同的正则表达式,示例性的,插入命令所对应的句法可为:“在A的前面插入B”、“在C后面加入D”等其他类似于这种内容的句式均可为插入命令所对应的句法;替换命令所对应的句法可为:“将F换成E”、“将Y改成W”等其他类似于这种内容的句式均可作为替换命令所对应的句法;删除命令的句法可为:“将Q删除”、“去掉T”等其他类似于这种内容的句式均可作为删除命令所对应的句法。
S103、将所述编辑命令确定为目标语句。
当编辑命令不为描述性命令时,此时可确定该编辑命令为用户需要编辑的内容,将编辑命令确定为目标语句,即此时用户需要将该目标语句替换待编辑语句中的内容或是需要将该目标语句插入待编辑语句中;优选的,本方案中的目标语句为短语,该目标语句为用户输入的正确的文本。
S104、将所述目标语句和所述待编辑语句输入预先训练完成的替换模块和插入模块。
本发明中的替换模块和插入模块均为预先训练完成的模型,其中,替换模块可为使用GPT-2、基于RNN的Seq2Seq等文本生成模型或是BERT模型等掩码语言模型进行构建的模块,插入模块可为使用GPT-2、基于RNN的Seq2Seq等文本生成模型或是BERT模型等掩码语言模型进行构建的模块;优选的,本发明中的替换模块和插入模块均为使用GTP-2模型构建的模块。
对插入模块和替换模块的训练进行说明,在对插入模块和替换模块进行训练时,先为插入模块和替换模块构造数据集,该数据集用于对插入模块和替换模块进行训练,其中,构建数据集的过程包括:生成替换样例和插入样例,生活中常见的替换错误包括近音、近义、丢失、重复等,可从这些方向生成替换样例。
生成替换样例的具体过程如:从网络论坛帖子中收集大量的文本,首先根据标点进行分句,然后移除掉包含英文、特殊字符的句子,过长、过短的句子,以及被截断的句子,最后对句子进行分词和词性标注;对于得到的每个句子,选择随机数量、随机长度的短语作为错误区间,将区间中的正确短语替换为错误短语,得到错误原文作为替换样例的输入。选择其中一个区间的正确短语作为目标短语,也作为替换样例的输入。将该区间的错误短语作为替换样例的输出。根据正确短语生成错误短语的方法包括:(1)近音:将正确短语解析为拼音,随机替换拼音中的某些元音、辅音,或随机增加或删除某个字的拼音,再根据拼音生成文字;(2)近义:随机选择几个正确短语中的词作为待修改词,根据词嵌入找到向量空间中和待修改词的词嵌入余弦相似度较高的近义词,用近义词替换待修改词;(3)丢失:从正确短语中随机挑选字或词删除;(4)重复:将根据(1)(2)(3)生成的错误短语与正确短语拼接,或将正确短语重复两遍,得到错误短语。
生成插入样例的具体过程如:从网络论坛帖子中收集大量的文本,首先根据标点进行分句,然后移除掉包含英文、特殊字符的句子,过长、过短的句子,以及被截断的句子,最后对句子进行分词和词性标注;对于得到的每个句子,从句子中选择随机数量、随机长度的短语作为错误区间,将区间中的正确短语删去得到错误原文,作为插入样例的输入。选择其中一个区间的正确短语作为目标短语,也作为插入样例的输入,将空短语(即句子结束符“<EOS>”)作为插入样例的输出。
对替换模块进行的训练过程包括:使用文本生成模型,在中文维基百科语料库上进行预训练,训练任务为根据上文预测当前词,当困惑度低于阈值时停止训练。将该模型在构造的数据集上进行微调,训练任务为生成任务,将错误原文和正确短语作为输入,生成对应的错误短语(包括空短语)。微调的训练过程包括5-10轮的固定训练,选择在验证集上表现最好的模型作为最终的模型。
对插入模块进行训练的过程包括:使用文本生成模型,在中文维基百科语料库上进行预训练,训练任务为根据上文预测当前词,当困惑度低于阈值时停止训练。在构造的数据集上进行微调,训练任务与预训练的任务相同。微调的训练过程包括5-10轮的固定训练,选择在验证集上表现最好的模型作为最终的模型。
S105、触发所述插入模块对所述目标语句和所述待编辑语句进行处理,输出M个候选插入语句,其中,M为正整数。
插入模块在接收到目标语句和待编辑语句后,对目标语句和待编辑语句进行处理,从而输出M个候选插入语句,其中,M可根据实际需求进行设置,其具体过程如图2所示,图2中的步骤均为插入模块执行的流程,具体说明如下所述:
S201、对所述待编辑语句进行分词处理,得到与所述待编辑语句对应的至少两个插入位置。
插入模块对待编辑语句进行分词处理,以便将待编辑语句划分出至少一个分词,再根据分词的数量确定插入位置的数量,其中,插入位置的数量比分词数的数量多一。具体如,待编辑语句的分词数为1个时,则插入位置的数量为2个,具体在分词的前面和后面;具体的,待编辑语句的每个分词的前后均有一个插入位置,两个分词之间有一个插入位置。
S202、对于所述待编辑语句的每个插入位置,将所述目标语句插入所述插入位置中,得到与所述插入位置对应的第一候选语句。
将目标语句放置在插入位置中后,即可得到与该插入位置对应的第一候选语句,具体如待编辑语句为“今天很好”,目标语句为“天气”,可确定该待编辑语句的插入位置为“-今天-很-好-”,其中“-”表示插入位置,则在每个插入位置中插入目标语句后得到的各个第一候选语句为:1、天气今天很好;2、今天天气很好;3、今天很天气好;4、今天很好天气。
S203、将每个所述第一候选语句输入预设的语句计分模型中,使得所述语句计分模型输出每个所述第一候选语句的第一候选分数。
延续S203中的说明,使用语句计分模型计算每个第一候选语句的第一候选分数,假设编号为1的第一候选语句的第一候选分数为20,编号为2的第一候选语句的第一候选分数为90,编号为3的第一候选语句的第一候选分数为19,编号为4的第一候选语句的第一候选分数为25。
其中语句计分模型根据预设的评分公式计算第一候选语句的第一候选分数,其中,评分公式具体为:
其中,language_model_score(s)表示第一候选语句的第一候选分数;s表示第一候选语句;l表示语句的总词数;wi表示语句中第i个词;p(w1)表第一个词为w1的概率;p(wi|w1...wi-1)表示在第1个词到第i-1个词为w1w2...wi-1的情况下,第l个词为wi的概率。
需要说明的是,上述的评分公式展开后的具体表现形式为:
language_model_score(s)=log(p(w1)p(w2|w1)p(w3|w1w2)...p(wl|w1...wl-1))/l;
通过使用上述的评分公式计算出每个第一候选语句的第一候选分数。
S204、按照第一候选分数从高到低的顺序选取第一候选语句,直至选取的第一候选语句的个数为M个,并将选择的各个第一候选语句均确定为候选插入语句。
延续S203中的说明,按照第一候选分数从高到低的顺序将各个第一候选语句进行排列,由此可以得到的队列为:编号为2的第一候选语句排在第一,编号为4的第一候选语句排在第二,编号为1的第一候选语句排在第三,编号为3的第一候选语句排在第四;当M为2时,选取候选插入语句为:编号2的第一候选语句:“今天天气很好”,以及编号为4的第一候选语句:“今天很好天气”;优选的,当M为5时,则将编号为1、2、3以及4的第一候选语句均选定为候选插入语句,缺少的候选插入语句可使用空语句进行填补,即此时的5个候选插入语句中有一个空语句。
本发明实施例提供的方法中,通过计算每个第一候选语句的第一候选分数,并根据第一候选分数的高低在第一候选语句中确定候选替换语句,可以向用户提供更加符合句子语境和情感的语句,以便得到的候选替换语句更加满足用户的需求,从而提高语音编辑的准确率和效率。
S106、触发所述替换模块对所述目标语句和所述待编辑语句进行处理,输出N个候选替换语句和空短语预测概率,其中,N为正整数。
替换模块在接收到目标语句和待编辑语句后,执行下述操作:
替换模块基于神经网络模型对所述目标语句和所述待编辑语句进行处理,以得到与所述目标语句和所述待编辑语句对应的向量,并基于预设的词表限定策略对所述向量进行处理,构建与所述待编辑语句对应的搜索树,其中,所述搜索树中包含多个子节点,每个所述子节点中的词均由待编辑语句中的文字组成。
本发明的神经网络模型具体可为GPT-2、基于RNN的Seq2Seq等文本生成模型或是BERT模型。本发明基于词表限定策略生成搜索树中的各个子节点,使得每个子节点中的词均由待编辑语句中的文字组成。
基于预设的集束搜索策略,对所述搜索树中的各个子节点进行搜索,以生成与所述待编辑语句对应的多个错误短句以及空短语预测概率;本发明中的集束搜索策略中对束的大小进行了限制,束的大小可用n表示,其中,n的取值与替换模块在进行训练时的最佳训练结果相关联。在基于集束搜索策略对搜索树中的各个子节点进行搜索时,可将路径上每个子节点的概率相乘,再根据子节点的深度进行归一化运算,可以得到每个错误短句的被替换概率,归一化运算的过程为:(log(p1p2...pl))/l,其中p1表示每个子节点对应的概率;l表示错误短句包含的子节点数。进一步的,空短语预测概率为被替换概率最高的候选错误短句为空短语的概率,空短语为句子结束符“<EOS>”。
确定每个错误短句的被替换概率,并按照被替换概率从高到低的顺序选取错误短句,直至选取的错误短语的个数与预设的短句个数一致,将选取每个的错误短句均确定为目标错误短句。本发明中的错误短句可为句子,也可为短语。
对于每个所述目标错误短句,在所述待编辑语句中确定与所述目标错误短句对应的内容,并将所述目标语句替换所述待编辑语句中与所述目标错误短句对应的内容,从而得到与所述目标错误短句对应的替换例句。
在待编辑语句和所述目标语句满足预设的各个补充规则中的任意一个时,基于所述待编辑语句和所述目标语句生成至少一个补充例句;其中,补充例句为根据待编辑语句和目标语句所满足的补充规则生成的语句;此处的补充规则有多个,具体为读音补充规则、上下文对齐补充规则等;读音补充规则具体为:若目标语句与待编辑语句中的某个短语语音相似性低于阈值,则确定待编辑语句和目标语句满足各个补充规则中的读音补充规则,并用目标语句替换该短语,将替换得到的语句作为补充例句;其中,语音相似性可基于元音、辅音的高维编码来进行计算;上下文对齐补充规则具体为:若目标语句的头部和尾部和待编辑语句中某个短语的头部和尾部一致,则确定待编辑语句和目标语句满足各个补充规则中的上下文对齐补充规则,并用目标语句替换该短语,将替换得到的语句作为补充例句。需要进一步说明的是,目标错误语句和待编辑语句可同时满足多个补充规则,本发明中还存在一种情况就是目标错误语句和待编辑语句不满足任意一个补充规则,在出现这种情况时,无需生成补充例句。
将每个所述替换例句以及每个所述补充例句均确定为第二候选语句,并将每个所述第二候选语句输入预设的语句计分模型中,使得所述语句计分模型输出每个所述第二候选语句的第二候选分数;此处关于语句计分模型的说明请参照图2中的相关说明,此处不再进行赘述。
按照第二候选分数从高到低的顺序选取第二候选语句,直至选取的第二候选语句的个数为N个,并将选择的各个第二候选语句均确定为候选替换语句。关于选取第二候选语句的说明也可参照图2中关于选取第一候选语句的说明,此处不再进行赘述。
S107、将所述空短语预测概率、各个所述候选替换语句以及各个所述候选插入语句输入预设的综合模块中。
S108、触发所述综合模块从各个所述候选替换语句和各个所述候选插入语句中确定目标候选语句,并将各个所述目标候选语句向所述用户进行展示。
在将各个目标候选语句向用户进行展示时,具体可为将每个目标候选语句向用户展示,也可以是将各个目标候选语句逐一向用户展示。
综合模块确定的目标候选语句至少为一个,将确定的目标候选语句向用户展示的方式具体可为:为每个目标候选语句分配编号,按照编号将目标候选语句进行排序,从而可以得到候选语句列表,可将候选语句列表向用户展示,并且还将候选语句列表中的各个目标候选语句按照编号的先后顺序以语音的方式向用户逐一播放每个目标候选语句对应的语音。
综合模块确定目标候选语句的过程如图3所示,其中,图3均为综合模块执行的内容,具体说明如下所述:
S301、确定每个所述候选替换语句以及每个所述候选插入语句的语句分数。
候选替换语句和候选插入语句的语句分数为使用S203中的语句计分模型计算得到的分数。
S302、在各个所述候选替换语句的语句分数中确定数值最大的语句分数,并将数值最大的语句分数确定为第一语句分数,以及在各个所述候选插入语句的语句分数中确定数值最小的语句分数,并将数值最小的语句分数确定为第二语句分数。
S303、判断所述第二语句分数是否大于所述第一语句分数;若所述第二语句分数大于所述第一语句分数,则执行S304;若所述第二语句分数不大于所述第一语句分数,则执行S305。
S304、基于预设的第一选取规则确定第一替换语句数和第一插入语句数,并按照候选替换语句的语句分数从高到低的顺序选取候选替换语句,直至选取的候选替换语句的数量等于所述第一替换语句数,以及按照候选插入语句的语句分数从高到低的顺序选取候选插入语句,直至选取的候选插入语句的数量等于所述第一插入语句数,将所选取的候选插入语句以及所选取的候选替换语句均确定为目标候选语句。
第一替换语句数为从候选替换语句中选取的语句的数量;第一插入语句数为从候选插入语句中选取的语句的数量。
第一选取规则中设置了第一替换语句数和第一插入语句数的具体数值,优选的,本发明中的第一替换语句数为1,第一插入语句数为3。其中,第一替换语句数和第二替换语句数可根据实际需求进行设置,本发明的第一插入语句数比第一替换语句数大。
S305、确定所述空短语预测概率是否位于预设的第一区间;若所述空短语预测概率位于所述第一区间,则执行S306;若所述空短语预测概率不位于所述第一区间,则执行S307。
本发明中的第一区间为半开半闭区间,具体如(0.98,1],可选的,本发明中的空短语预测概率的取值范围为0~1之间。
S306、按照候选替换语句的语句分数从高到低的顺序选取候选替换语句,直至选取的候选替换语句的数量等于所述第一替换语句数,以及按照候选插入语句的语句分数从高到低的顺序选取候选插入语句,直至选取的候选插入语句的数量等于所述第一插入语句数,将所选取的候选插入语句以及所选取的候选替换语句均确定为目标候选语句。
关于第一替换语句数和第二插入语句数可参照S304的说明,此处不再进行赘述。
S307、确定所述空短语预测概率是否位于预设的第二区间;若所述空短语预测概率位于所述第二区间,则执行S308;若所述空短语预测概率不位于所述第二区间,则执行S309。
第二区间为半开半闭区间,第二区间具体可为[0.5,0.98)。
S308、基于预设的第二候选规则确定第二替换语句数和第二插入语句数,并按照候选替换语句的语句分数从高到低的顺序选取候选替换语句,直至选取的候选替换语句的数量等于所述第二替换语句数,以及按照候选插入语句的语句分数从高到低的顺序选取候选插入语句,直至选取的候选插入语句的数量等于所述第二插入语句数,将所选取的候选插入语句以及所选取的候选替换语句均确定为目标候选语句。
第二替换语句数为从候选替换语句中选取的语句的数量;第二插入语句数为从候选插入语句中选取的语句的数量。第二选取规则中设置了第二替换语句数和第二插入语句数的具体数值,优选的,本发明中的第二替换语句数为2,第二插入语句数为2;第二替换语句数和第二插入语句数可根据实际需求进行设置,本发明中的第二插入语句数与第二替换语句数相同。
S309、基于预设的第三候选规则确定第三替换语句数和第三插入语句数,并按照候选替换语句的语句分数从高到低的顺序选取候选替换语句,直至选取的候选替换语句的数量等于所述第三替换语句数,以及按照候选插入语句的语句分数从高到低的顺序选取候选插入语句,直至选取的候选插入语句的数量等于所述第三插入语句数,将所选取的候选插入语句以及所选取的候选替换语句均确定为目标候选语句。
在空短语预测概率不位于第二区间时,则可确定空短语预测概率位于第三区间,其中,第三区间为半开半闭区间区间,第三区间具体可为[0,0.5)。
第三替换语句数为从候选替换语句中选取的语句的数量;第三插入语句数为从候选插入语句中选取的语句的数量。第三选取规则中设置了第三替换语句数和第三插入语句数的具体数值,优选的,本发明中的第三替换语句数为3,第三插入语句数为1;第三替换语句数和第三插入语句数可根据实际需求进行设置,本发明中的第三插入语句数与第三替换语句数相同。
本发明实施例提供的方法中,根据空短语预测概率、每个候选插入语句的语句分数以及每个候选插入语句的语句分数选择目标候选语句,其中,目标候选语句中所包含的候选插入语句的个数和候选插入语句的个数根据不同的情况进行选择,本发明提供了多种选取规则,以适用在多种不同的场景,提高本发明的适用性,同时也可以为用户提供更加贴切的目标候选语句。
S109、接收所述用户基于各个所述目标候选语句反馈的选择指令,确定所述选择指令中是否包含语句标识;若所述选择指令中包含语句标识,则执行S110;若所述选择指令中不包含语句标识,则执行S111。
语句标识可为目标候选语句的语句编号或是确定标识,其中,语句编号为目标候选语句的唯一标识符。示例性的,若选择指令为第一句,则该选择指令中包含语句标识,该语句标识为语句编号,表示用户选择第一个目标候选语句。若在将第三个目标候选语句向用户展示时,接收到用户发送的选择指令,选择指令为确定,则该选择指令中包含语句标识,该语句标识为确定表示,即标识用户选择第三个目标候选语句。
S110、将与所述选择指令中的语句标识所对应的目标候选语句替换所述待编辑语句。
在选择指令中包含的语句标识所对应的目标候选语句替换待标记语句,由此可通过语音对待编辑文本进行编辑。
S111、获取所述选择指令中的操作标识,并执行与所述操作标识对应的操作。
本发明中操作标识包含但不限于取消标识、返回标识或是发送标识等,不同的操作标识对应不同的操作,例如取消标识则对应取消操作,即取消编辑,不再对待编辑语句进行编辑;返回标识则对应返回操作,即不再对待编辑语句进行编辑,并返回上一操作,比如将位于待编辑语句前的语句再重新展示;发送标识对应发送操作,即对待编辑语句不再编辑,将当前的待编辑文本发送出去。
S112、确定所述描述性命令的描述类型,并对所述待编辑语句执行与所述描述类型对应的编辑操作。
描述性命令的描述类型包括但不限于插入类型、删除类型或替换类型,插入类型对应的编辑操作为插入操作,具体如描述性命令的具体内容为将A插入B前,则将在待编辑语句中确定B的位置,并将A插入B的前面;删除类型对应的编辑操作为删除操作,具体如描述性命令的具体内容为将C删除,则在待编辑语句中确定C,并将C从待编辑语句中删除;替换类型对应的编辑操作为替换操作,具体如描述性命令的具体内容为将D换成F,则在待编辑语句中确定D,并将F替换掉D。
本发明实施例提供的方法中,获取用户输入的编辑命令以及待编辑语句,在编辑命令不为描述性命令时,确定编辑命令为目标语句,将目标语句和待编辑语句输入替换模块和插入模块,并将替换模块输出的N个候选替换语句和空短语预测概率以及插入模块输出的M个候选插入语句均输入综合模块中,使得综合模块选出目标候选语句,并将每个目标候选语句向用户展示,接收到用户反馈的选择指令,并在选择指令中包含语句标识时,将与语句标识对应的目标候选语句替换待编辑语句。本发明通过用户输入的目标语句就可预测出用户想要修改的文本内容,无需用户指定需要修改的文本的具体位置,并为用户提供更加符合语义、上下文更加连贯的语句,从而对文本进行编辑,本发明提供的方法无需输入描述性命令即可对文本进行编辑,并且缩短了传统语音编辑的流程,从而提高了语音编辑的效率,从而为用户提供了更加优质的服务。
在本发明中,在获取用户输入的编辑命令以及待编辑语句之前,还包含以下内容:
在接收到用户发送的语音转换指令时,采集所述用户的转换语音,并调用预设的语音转换模块将所述转换语音转换成文本;
将所述文本输入预设的口语移除模块,使得所述口语移除模块对所述文本中的口语词进行标注,并得到与所述文本对应的标注序列,基于所述标注序列将所述文本中的口语词移除,并将移除口语词后的文本作为待编辑文本向所述用户展示。
需要说明的是,用户在需要将语音转换成文本时,就向智能语音编辑系统发送语音转换指令,使得智能语音编辑系统开启工作。智能语音编辑系统在开启工作后,智能语音系统中的语音采集模块开始采集用户的转换语音,其中,转换语音为用户需要转换成文本的语音,优选的,语音采集模块设置在智能终端中。
本发明中的口语词为用户无意中插入的对语句没有影响的口语词,包括但不限于“嗯”、“呢”,副词“就是”,连词“然后”,和代词“这个”等。将移除口语词后的文本作为待编辑文本向用户进行展示时,可逐句向用户进行展示,并在向用户展示的过程中,采集到用户输入的编辑语音时,将当前向用户展示的语句作为待编辑语句,并将编辑语音转换成文字的编辑命令。
本发明实施例提供的方法中,通过使用口语移除模块将用户输入的语音中的口语词移除,进而提高数据的准确度,从而减少了替换模块和插入模块的数据处理量,无需用户进行操作就可自动将口语词去除,为用户提供更加便利的操作方式。
本发明中的口语移除模块为使用BERT模型、RNN模型、LSTM模型、CRF模型等可用于标注的模型构建而成,口语移除模块为预先训练完成的模块。优选的,本发明中的口语移除模块使用BERT模型构建而成,对应用BERT模型构建的口语移除模块进行训练的过程进行说明,具体为:首先在中文维基百科数据上对BERT进行预训练,训练任务为掩码语言模型任务和预测下一句任务,当困惑度低于阈值时停止训练。然后,在BERT最后一个隐藏层的顶部添加一个线性层,然后在预先构造的数据集上进行微调,训练任务为序列标注任务,当验证集上的准确率、召回率稳定后停止训练,此时完成对口语移除模块的训练。此处预先构造的数据集为口语词库,口语词库中记录了不同口语词常见的插入位置,包括句末、名词短语前、随机等;在构建口语词库时,可以从网络论坛帖子中收集大量的文本,首选根据标点进行分句,然后移除掉包含英文、特殊字符的句子,过长、过短的句子,以及被截断的句子,最后对句子进行分词和词性标注,根据词性标注序列,使用正则表达式找出句子中的名词短语,对于每个名词短语和它们出现的每个常见插入位置,构造一些口语词标注的样例,具体如将口语词插入到句子的特定位置(句末、名词短语前、随机等)作为样例的输入,生成一个和输入等长的标注序列作为输出,口语词位置标注为1,非口语词位置标注为0。一个句子中会插入随机数量的口语词。插入口语词的时候有一定概率在口语词前后插入逗号,这种逗号在作为输出的标注序列里标注为1。
本发明实施例提供的方法可应用在多种场景中,以下以具体的实例对本发明在实际的场景中应用是进行说明;
场景实例一:
以手机上的语音编辑器为例进行说明,其中,用户使用线控耳机进行编辑操作,参照图4,为应用的场景实例图,具体说明如下所述:
401.当输入按钮被单击,或耳机线中键被长按时,系统将语音输入转录为文字,显示在编辑框内。
402.完成输入后,系统将未被编辑的第一句选为当前句,然后将本次输入的段落发送给口语词移除模型,将返回的结果替换到编辑框内。
403.当阅读按钮被单击,或耳机线中键被短按时,系统从当前句开始阅读。如已经开始阅读,则暂停阅读。系统会自动选中当前正在阅读的句子。
404.当前/后按钮被单击,或耳机线加号/减号被短按时,系统选中并朗读前一句/后一句。当耳机线加号键被长按时,系统从头开始朗读,并选中第一句。当编辑框被单击时,对应位置的句子被选中,系统会高亮并朗读该句。当该句子所在区域再次被选中时,光标会被放置在被点击的具体位置。
405.当编辑按钮被单击,或耳机线减号被长按时,系统将暂停阅读,并将语音输入的编辑命令转录为文字,和当前句一起发送给服务端的描述性命令处理模块。系统接收描述性命令处理模块或综合模块的返回结果,在界面上用最佳结果将原句替换,并朗读该结果。系统进入结果选择模式,按钮的样式和耳机线按键的功能发生变化。
406.当前/后按钮被单击,或耳机线加号/减号被短按时,系统切换到前一个/后一个结果,显示并朗读该结果。
407.当确定按钮被单击,或耳机线中键被短按时,系统选中该结果。退出结果选择模式,按钮的样式和耳机线按键的功能变回原样。
408.当取消按钮被单击,或耳机线中键被长按时,系统终止本次编辑,将当前句改回原句,退出结果选择模式,按钮的样式和耳机线按键的功能变回原样。
场景实例二:
以车载的语音编辑器进行说明,车载的语音编辑器可使用纯语音的方式进行交互,其中该实施例中所述的系统均为智能语音编辑系统,具体说明如下所述:
501.系统识别用户的语音,当用户说出与语音输入相关的命令词,如“输入”、“给xx发信息”等,则开启语音输入流程;系统识别用户的语音可使用语音采集即采集用户的语音,并使用语音转换模块将采集到的语音转换成对应的文本。
502.系统接收并识别用户说出的段落,发送给口语词移除模型,然后接收返回的结果。系统从头朗读该段文本。
503.当识别到人声或特定用户的声音后,暂停播放,这一阶段中,用户说出的所有内容都视为编辑命令。识别用户说出的命令,将其与当前句一起发送给服务端的描述性命令处理模块。系统接收描述性命令处理模块或综合模块的返回结果,并依次朗读编辑结果(朗读每个结果时先朗读编号)。
504.当听到用户说出“确定”时,则选择当前正在朗读的结果。当听到用户说出特定数字时,则选定对应编号的结果。当听到用户说出“取消”时,则取消本次编辑。
505.从当前句继续朗读,识别到人声后跳转到503。
506.朗读到文段末尾后,若用户说出“确定”,则结束本段落的编辑。之后。所有内容都视为输入的内容。跳转到502,重复以上步骤直到用户说出终止输入的命令,如“发送”。
场景实例三:
以VR场景为例进行说明,VR场景结合可视界面,用户可通过头动或眼动确定文字的修改范围,同通过智能编辑技术类推理修改的具体位置和范围,为VR设备提供一种高效的文本编辑方法,具体过程如下所述:
601.接收到语音输入的段落后,系统会将其发送给口语词移除模型,然后接收返回的结果,显示在VR设备的文本编辑框中。
602.当接收到用户语音后,若用户凝视空白区域,则用户意图为输入,跳转到601;若用户凝视已输入的文字,则意图为编辑,将凝视的位置附近的句子和编辑命令发送给服务端的描述性命令处理模块。系统接收描述性命令处理模块或综合模块的返回结果,并通过候选框展示备选的编辑结果。此处可使用眼部采集模块采集用户的眼球动态,进而确定用户的意图为输入还是编辑。
603.当听到用户说出特定数字时,则选定该结果。当听到用户说出“取消”时,则取消本次编辑。
在应用到VR场景时,为减小误差,可以适当调大句子的行距,或将每个句子分别显示在不同的页面上。
与图1所示的方法对应的,本发明还提供一种语音编辑装置,用以支持图1所示的方法在实际中的应用,该装置可设置于智能语音编辑系统中,该装置可由计算机终端或是智能设备组成,该装置的结构示意图如图5所示,具体说明如下所述:
获取单元701,用于获取用户输入的编辑命令以及待编辑语句,其中,所述待编辑语句为所述用户在待编辑文本中选中的语句,所述待编辑文本为将所述用户输入的转换语音转换为文字后的文本,所述编辑命令为将所述用户基于所述待编辑语句输入命令语音转换为文字后的文本;
判断单元702,用于判断所述编辑命令是否为描述性命令;
确定单元703,用于若所述编辑命令不为描述性命令,则将所述编辑命令确定为目标语句;
第一输入单元704,用于将所述目标语句和所述待编辑语句输入预先训练完成的替换模块和插入模块;
第一触发单元705,用于触发所述插入模块对所述目标语句和所述待编辑语句进行处理,输出M个候选插入语句,其中,M为正整数;
第二触发单元706,用于触发所述替换模块对所述目标语句和所述待编辑语句进行处理,输出N个候选替换语句和空短语预测概率,其中,N为正整数;
第二输入单元707,用于将所述空短语预测概率、各个所述候选替换语句以及各个所述候选插入语句输入预设的综合模块中;
展示单元708,用于触发所述综合模块从各个所述候选替换语句和各个所述候选插入语句中确定目标候选语句,并将每个所述目标候选语句向所述用户进行展示;
接收单元709,用于接收所述用户基于各个所述目标候选语句反馈的选择指令,确定所述选择指令中是否包含语句标识;
替换单元710,用于若所述选择指令中包含语句标识,则将与所述选择指令中的语句标识所对应的目标候选语句替换所述待编辑语句。
本发明实施例提供的装置中,获取用户输入的编辑命令以及待编辑语句,在编辑命令不为描述性命令时,确定编辑命令为目标语句,将目标语句和待编辑语句输入替换模块和插入模块,并将替换模块输出的N个候选替换语句和空短语预测概率以及插入模块输出的M个候选插入语句均输入综合模块中,使得综合模块选出目标候选语句,并将每个目标候选语句向用户展示,接收到用户反馈的选择指令,并在选择指令中包含语句标识时,将与语句标识对应的目标候选语句替换待编辑语句,由此,无需用户指定错误文本的位置,用户仅通过语音输入少量的信息即可对文本进行编辑,有效缩短了使用语音对文本的编辑流程,提高语音编辑的效率;并且为用户提供更加便捷的编辑方式,可根据用户输入的目标语句预测出用户想要修改的文本内容,并为用户提供更加合适的例句,从而为用户提供了更加优质的服务,也提高了编辑的效率。
本发明实施例提供的装置中,该装置还可配置为:
采集单元,用于在接收到用户发送的语音转换指令时,采集所述用户的转换语音,并调用预设的语音转换模块将所述转换语音转换成文本;
移除单元,用于将所述文本输入预设的口语移除模块,使得所述口语移除模块对所述文本中的口语词进行标注,并得到与所述文本对应的标注序列,基于所述标注序列将所述文本中的口语词移除,并将移除口语词后的文本作为待编辑文本向所述用户展示。
本发明实施例提供的装置中,该装置的判断单元702,可配置为:
匹配子单元,用于将所述编辑命令与预设的各个正则表达式进行匹配;
第一判断子单元,用于判断是否存在与所述编辑命令对应的正则表达式;
第一确定子单元,用于若存在与所述编辑命令对应的正则表达式,则确定所述编辑命令为描述性命令;
第二确定子单元,用于若不存在与所述编辑命令对应的正则表达式,则确定所述编辑命令不为描述性命令。
本发明实施例提供的装置中,该装置的第一触发单元705,可配置为:
获得子单元,用于所述插入模块对所述待编辑语句进行分词处理,得到与所述待编辑语句对应的至少两个插入位置;
插入子单元,用于对于所述待编辑语句的每个插入位置,将所述目标语句插入所述插入位置中,得到与所述插入位置对应的第一候选语句;
输出子单元,用于将每个所述第一候选语句输入预设的语句计分模型中,使得所述语句计分模型输出每个所述第一候选语句的第一候选分数;
第一选取子单元,用于按照第一候选分数从高到低的顺序选取第一候选语句,直至选取的第一候选语句的个数为M个,并将选择的各个第一候选语句均确定为候选插入语句。
本发明实施例提供的装置中,该装置的第二触发单元706,可配置为:
构建子单元,用于所述替换模块基于神经网络模型对所述目标语句和所述待编辑语句进行处理,以得到与所述目标语句和所述待编辑语句对应的向量,并基于预设词表限定策略对所述向量进行处理,构建与所述待编辑语句对应的搜索树,其中,所述搜索树中包含多个子节点,每个所述子节点中的词均由所述待编辑语句中的文字组成;
第一生成子单元,用于基于预设的集束搜索策略,对所述搜索树中的各个子节点进行搜索,以生成与所述待编辑语句对应的多个错误短句以及空短语预测概率;
第三确定子单元,用于确定每个错误短句的被替换概率,并按照被替换概率从高到低的顺序选取错误短句,直至选取的错误短语的个数与预设的短句个数一致,将选取每个的错误短句均确定为目标错误短句;
替换子单元,用于对于每个所述目标错误短句,在所述待编辑语句中确定与所述目标错误短句对应的内容,并将所述目标语句替换所述待编辑语句中与所述目标错误短句对应的内容,从而得到与所述目标错误短句对应的替换例句;
第二生成子单元,用于在待编辑语句和所述目标语句满足预设的各个补充规则中的任意一个时,基于所述待编辑语句和所述目标语句生成至少一个补充例句;
第四确定子单元,用于将每个所述替换例句以及每个所述补充例句均确定为第一候选语句,并将每个所述第二候选语句输入预设的语句计分模型中,使得所述语句计分模型输出每个所述第二候选语句的第二候选分数;
第二选取子单元,用于按照第二候选分数从高到低的顺序选取第二候选语句,直至选取的第二候选语句的个数为N个,并将选择的各个第二候选语句均确定为候选替换语句。
本发明实施例提供的装置中,该装置的展示单元708,可配置为:
第五确定子单元,用于所述综合模块确定每个所述候选替换语句以及每个所述候选插入语句的语句分数;
第六确定子单元,用于在各个所述候选替换语句的语句分数中确定数值最大的语句分数,并将数值最大的语句分数确定为第一语句分数;
第七确定子单元,用于在各个所述候选插入语句的语句分数中确定数值最小的语句分数,并将数值最小的语句分数确定为第二语句分数;
第二判断子单元,用于判断所述第二语句分数是否大于所述第一语句分数;
第三选取子单元,用于若所述第二语句分数大于所述第一语句分数,则基于预设的第一选取规则确定第一替换语句数和第一插入语句数,并按照候选替换语句的语句分数从高到低的顺序选取候选替换语句,直至选取的候选替换语句的数量等于所述第一替换语句数,以及按照候选插入语句的语句分数从高到低的顺序选取候选插入语句,直至选取的候选插入语句的数量等于所述第一插入语句数,将所选取的候选插入语句以及所选取的候选替换语句均确定为目标候选语句;
第八确定子单元,用于若所述第二语句分数未大于所述第一语句分数,则确定所述空短语预测概率是否位于预设的第一区间;
第四选取子单元,用于若所述空短语预测概率位于所述第一区间,则按照候选替换语句的语句分数从高到低的顺序选取候选替换语句,直至选取的候选替换语句的数量等于所述第一替换语句数,以及按照候选插入语句的语句分数从高到低的顺序选取候选插入语句,直至选取的候选插入语句的数量等于所述第一插入语句数,将所选取的候选插入语句以及所选取的候选替换语句均确定为目标候选语句;
第九确定子单元,用于若所述空短语预测概率不位于所述第一区间,则确定所述空短语预测概率是否位于预设的第二区间;
第五选取子单元,用于若所述空短语预测概率位于所述第二区间,则基于预设的第二候选规则确定第二替换语句数和第二插入语句数,并按照候选替换语句的语句分数从高到低的顺序选取候选替换语句,直至选取的候选替换语句的数量等于所述第二替换语句数,以及按照候选插入语句的语句分数从高到低的顺序选取候选插入语句,直至选取的候选插入语句的数量等于所述第二插入语句数,将所选取的候选插入语句以及所选取的候选替换语句均确定为目标候选语句;
第六选取子单元,用于若所述空短语预测概率不位于所述第二区间,则基于预设的第三候选规则确定第三替换语句数和第三插入语句数,并按照候选替换语句的语句分数从高到低的顺序选取候选替换语句,直至选取的候选替换语句的数量等于所述第三替换语句数,以及按照候选插入语句的语句分数从高到低的顺序选取候选插入语句,直至选取的候选插入语句的数量等于所述第三插入语句数,将所选取的候选插入语句以及所选取的候选替换语句均确定为目标候选语句。
本发明实施例提供的装置中,该装置还可配置为:
执行单元,用于若确定所述编辑命令为描述性命令时,则确定所述描述性命令的描述类型,并对所述待编辑语句执行与所述描述类型对应的编辑操作。
本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述语音编辑方法。
本发明实施例还提供了一种电子设备,其结构示意图如图6所示,具体包括存储器801,以及一个或者一个以上的指令802,其中一个或者一个以上指令802存储于存储器801中,且经配置以由一个或者一个以上处理器803执行所述一个或者一个以上指令802进行以下操作:
获取用户输入的编辑命令以及待编辑语句,其中,所述待编辑语句为所述用户在待编辑文本中选中的语句,所述待编辑文本为将所述用户输入的转换语音转换为文字后的文本,所述编辑命令为将所述用户基于所述待编辑语句输入命令语音转换为文字后的文本;
判断所述编辑命令是否为描述性命令;
若所述编辑命令不为描述性命令,则将所述编辑命令确定为目标语句;
将所述目标语句和所述待编辑语句输入预先训练完成的替换模块和插入模块;
触发所述插入模块对所述目标语句和所述待编辑语句进行处理,输出M个候选插入语句,其中,M为正整数;
触发所述替换模块对所述目标语句和所述待编辑语句进行处理,输出N个候选替换语句和空短语预测概率,其中,N为正整数;
将所述空短语预测概率、各个所述候选替换语句以及各个所述候选插入语句输入预设的综合模块中;
触发所述综合模块从各个所述候选替换语句和各个所述候选插入语句中确定目标候选语句,并将每个所述目标候选语句向所述用户进行展示;
接收所述用户基于各个所述目标候选语句反馈的选择指令,确定所述选择指令中是否包含语句标识;
若所述选择指令中包含语句标识,则将与所述选择指令中的语句标识所对应的目标候选语句替换所述待编辑语句。
上述各个实施例的具体实施过程及其衍生方式,均在本发明的保护范围之内。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种语音编辑方法,其特征在于,包括:
获取用户输入的编辑命令以及待编辑语句,其中,所述待编辑语句为所述用户在待编辑文本中选中的语句,所述待编辑文本为将所述用户输入的转换语音转换为文字后的文本,所述编辑命令为将所述用户基于所述待编辑语句输入命令语音转换为文字后的文本;
判断所述编辑命令是否为描述性命令;
若所述编辑命令不为描述性命令,则将所述编辑命令确定为目标语句;
将所述目标语句和所述待编辑语句输入预先训练完成的替换模块和插入模块;
触发所述插入模块对所述目标语句和所述待编辑语句进行处理,输出M个候选插入语句,其中,M为正整数;
触发所述替换模块对所述目标语句和所述待编辑语句进行处理,输出N个候选替换语句和空短语预测概率,其中,N为正整数;
将所述空短语预测概率、各个所述候选替换语句以及各个所述候选插入语句输入预设的综合模块中;
触发所述综合模块从各个所述候选替换语句和各个所述候选插入语句中确定目标候选语句,并将各个所述目标候选语句向所述用户进行展示;
接收所述用户基于各个所述目标候选语句反馈的选择指令,确定所述选择指令中是否包含语句标识;
若所述选择指令中包含语句标识,则将与所述选择指令中的语句标识所对应的目标候选语句替换所述待编辑语句。
2.根据权利要求1所述的方法,其特征在于,在获取用户输入的编辑命令以及待编辑语句前,还包括:
在接收到用户发送的语音转换指令时,采集所述用户的转换语音,并调用预设的语音转换模块将所述转换语音转换成文本;
将所述文本输入预设的口语移除模块,使得所述口语移除模块对所述文本中的口语词进行标注,并得到与所述文本对应的标注序列,基于所述标注序列将所述文本中的口语词移除,并将移除口语词后的文本作为待编辑文本向所述用户展示。
3.根据权利要求1所述的方法,其特征在于,所述判断所述编辑命令是否为描述性命令,包括:
将所述编辑命令与预设的各个正则表达式进行匹配;
判断是否存在与所述编辑命令对应的正则表达式;
若存在与所述编辑命令对应的正则表达式,则确定所述编辑命令为描述性命令;
若不存在与所述编辑命令对应的正则表达式,则确定所述编辑命令不为描述性命令。
4.根据权利要求1所述的方法,其特征在于,所述触发所述插入模块对所述目标语句和所述待编辑语句进行处理,输出M个候选插入语句,包括:
所述插入模块对所述待编辑语句进行分词处理,得到与所述待编辑语句对应的至少两个插入位置;
对于所述待编辑语句的每个插入位置,将所述目标语句插入所述插入位置中,得到与所述插入位置对应的第一候选语句;
将每个所述第一候选语句输入预设的语句计分模型中,使得所述语句计分模型输出每个所述第一候选语句的第一候选分数;
按照第一候选分数从高到低的顺序选取第一候选语句,直至选取的第一候选语句的个数为M个,并将选择的各个第一候选语句均确定为候选插入语句。
5.根据权利要求1所述方法,其特征在于,所述触发所述替换模块对所述目标语句和所述待编辑语句进行处理,输出N个候选替换语句和空短语预测概率,包括:
所述替换模块基于神经网络模型对所述目标语句和所述待编辑语句进行处理,以得到与所述目标语句和所述待编辑语句对应的向量,并基于预设词表限定策略对所述向量进行处理,构建与所述待编辑语句对应的搜索树,其中,所述搜索树中包含多个子节点,每个所述子节点中的词均由所述待编辑语句中的文字组成;
基于预设的集束搜索策略,对所述搜索树中的各个子节点进行搜索,以生成与所述待编辑语句对应的多个错误短句以及空短语预测概率;
确定每个错误短句的被替换概率,并按照被替换概率从高到低的顺序选取错误短句,直至选取的错误短语的个数与预设的短句个数一致,将选取每个的错误短句均确定为目标错误短句;
对于每个所述目标错误短句,在所述待编辑语句中确定与所述目标错误短句对应的内容,并将所述目标语句替换所述待编辑语句中与所述目标错误短句对应的内容,从而得到与所述目标错误短句对应的替换例句;
在待编辑语句和所述目标语句满足预设的各个补充规则中的任意一个时,基于所述待编辑语句和所述目标语句生成至少一个补充例句;
将每个所述替换例句以及每个所述补充例句均确定为第二候选语句,并将每个所述第二候选语句输入预设的语句计分模型中,使得所述语句计分模型输出每个所述第二候选语句的第二候选分数;
按照第二候选分数从高到低的顺序选取第二候选语句,直至选取的第二候选语句的个数为N个,并将选择的各个第二候选语句均确定为候选替换语句。
6.根据权利要求1所述的方法,其特征在于,所述触发所述综合模块从各个所述候选替换语句和各个所述候选插入语句中确定目标候选语句,包括:
所述综合模块确定每个所述候选替换语句以及每个所述候选插入语句的语句分数;
在各个所述候选替换语句的语句分数中确定数值最大的语句分数,并将数值最大的语句分数确定为第一语句分数;
在各个所述候选插入语句的语句分数中确定数值最小的语句分数,并将数值最小的语句分数确定为第二语句分数;
判断所述第二语句分数是否大于所述第一语句分数;
若所述第二语句分数大于所述第一语句分数,则基于预设的第一选取规则确定第一替换语句数和第一插入语句数,并按照候选替换语句的语句分数从高到低的顺序选取候选替换语句,直至选取的候选替换语句的数量等于所述第一替换语句数,以及按照候选插入语句的语句分数从高到低的顺序选取候选插入语句,直至选取的候选插入语句的数量等于所述第一插入语句数,将所选取的候选插入语句以及所选取的候选替换语句均确定为目标候选语句;
若所述第二语句分数未大于所述第一语句分数,则确定所述空短语预测概率是否位于预设的第一区间;
若所述空短语预测概率位于所述第一区间,则按照候选替换语句的语句分数从高到低的顺序选取候选替换语句,直至选取的候选替换语句的数量等于所述第一替换语句数,以及按照候选插入语句的语句分数从高到低的顺序选取候选插入语句,直至选取的候选插入语句的数量等于所述第一插入语句数,将所选取的候选插入语句以及所选取的候选替换语句均确定为目标候选语句;
若所述空短语预测概率不位于所述第一区间,则确定所述空短语预测概率是否位于预设的第二区间;
若所述空短语预测概率位于所述第二区间,则基于预设的第二候选规则确定第二替换语句数和第二插入语句数,并按照候选替换语句的语句分数从高到低的顺序选取候选替换语句,直至选取的候选替换语句的数量等于所述第二替换语句数,以及按照候选插入语句的语句分数从高到低的顺序选取候选插入语句,直至选取的候选插入语句的数量等于所述第二插入语句数,将所选取的候选插入语句以及所选取的候选替换语句均确定为目标候选语句;
若所述空短语预测概率不位于所述第二区间,则基于预设的第三候选规则确定第三替换语句数和第三插入语句数,并按照候选替换语句的语句分数从高到低的顺序选取候选替换语句,直至选取的候选替换语句的数量等于所述第三替换语句数,以及按照候选插入语句的语句分数从高到低的顺序选取候选插入语句,直至选取的候选插入语句的数量等于所述第三插入语句数,将所选取的候选插入语句以及所选取的候选替换语句均确定为目标候选语句。
7.根据权利要求1或3所述的方法,其特征在于,还包括:
若确定所述编辑命令为描述性命令时,则确定所述描述性命令的描述类型,并对所述待编辑语句执行与所述描述类型对应的编辑操作。
8.一种语音编辑装置,其特征在于,包括:
获取单元,用于获取用户输入的编辑命令以及待编辑语句,其中,所述待编辑语句为所述用户在待编辑文本中选中的语句,所述待编辑文本为将所述用户输入的转换语音转换为文字后的文本,所述编辑命令为将所述用户基于所述待编辑语句输入命令语音转换为文字后的文本;
判断单元,用于判断所述编辑命令是否为描述性命令;
确定单元,用于若所述编辑命令不为描述性命令,则将所述编辑命令确定为目标语句;
第一输入单元,用于将所述目标语句和所述待编辑语句输入预先训练完成的替换模块和插入模块;
第一触发单元,用于触发所述插入模块对所述目标语句和所述待编辑语句进行处理,输出M个候选插入语句,其中,M为正整数;
第二触发单元,用于触发所述替换模块对所述目标语句和所述待编辑语句进行处理,输出N个候选替换语句和空短语预测概率,其中,N为正整数;
第二输入单元,用于将所述空短语预测概率、各个所述候选替换语句以及各个所述候选插入语句输入预设的综合模块中;
展示单元,用于触发所述综合模块从各个所述候选替换语句和各个所述候选插入语句中确定目标候选语句,并将各个所述目标候选语句向所述用户进行展示;
接收单元,用于接收所述用户基于各个所述目标候选语句反馈的选择指令,确定所述选择指令中是否包含语句标识;
替换单元,用于若所述选择指令中包含语句标识,则将与所述选择指令中的语句标识所对应的目标候选语句替换所述待编辑语句。
9.一种存储介质,其特征在于,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如权利要求1~7任意一项所述的语音编辑方法。
10.一种电子设备,其特征在于,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如权利要求1~7任意一项所述的语音编辑方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110873669.1A CN113591441A (zh) | 2021-07-30 | 2021-07-30 | 语音编辑方法及装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110873669.1A CN113591441A (zh) | 2021-07-30 | 2021-07-30 | 语音编辑方法及装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113591441A true CN113591441A (zh) | 2021-11-02 |
Family
ID=78252859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110873669.1A Pending CN113591441A (zh) | 2021-07-30 | 2021-07-30 | 语音编辑方法及装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113591441A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1293427A (zh) * | 1999-10-19 | 2001-05-02 | 微软公司 | 语音识别模式错误校正系统和方法 |
KR20140123715A (ko) * | 2013-04-15 | 2014-10-23 | 한국과학기술원 | 감정 전달이 가능한 라이브 텍스트 및 라이브 텍스트를 이용한 라이브 보이스를 제공하기 위한 텍스트 편집 및 보이스 변환 시스템 및 방법 |
WO2016117854A1 (ko) * | 2015-01-22 | 2016-07-28 | 삼성전자 주식회사 | 음성 신호를 기초로 한 텍스트 편집 장치 및 텍스트 편집 방법 |
CN107861932A (zh) * | 2017-11-07 | 2018-03-30 | 成都野望数码科技有限公司 | 一种文本编辑方法、装置和系统以及一种终端设备 |
CN111859921A (zh) * | 2020-07-08 | 2020-10-30 | 金蝶软件(中国)有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
-
2021
- 2021-07-30 CN CN202110873669.1A patent/CN113591441A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1293427A (zh) * | 1999-10-19 | 2001-05-02 | 微软公司 | 语音识别模式错误校正系统和方法 |
KR20140123715A (ko) * | 2013-04-15 | 2014-10-23 | 한국과학기술원 | 감정 전달이 가능한 라이브 텍스트 및 라이브 텍스트를 이용한 라이브 보이스를 제공하기 위한 텍스트 편집 및 보이스 변환 시스템 및 방법 |
WO2016117854A1 (ko) * | 2015-01-22 | 2016-07-28 | 삼성전자 주식회사 | 음성 신호를 기초로 한 텍스트 편집 장치 및 텍스트 편집 방법 |
CN107861932A (zh) * | 2017-11-07 | 2018-03-30 | 成都野望数码科技有限公司 | 一种文本编辑方法、装置和系统以及一种终端设备 |
CN111859921A (zh) * | 2020-07-08 | 2020-10-30 | 金蝶软件(中国)有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
丁晓飞;胡国平;戴礼荣;: "英语句子朗读发音中的音素自动检错系统", 计算机应用与软件, no. 09, 15 September 2009 (2009-09-15) * |
王晓兰, 周献中: "格式正确的有限命令识别", 计算机应用, no. 10, 28 October 2005 (2005-10-28) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Czech | A System for Recognizing Natural Spelling of English Words | |
Wang et al. | Complete recognition of continuous Mandarin speech for Chinese language with very large vocabulary using limited training data | |
JP5149737B2 (ja) | 自動会話システム、並びに会話シナリオ編集装置 | |
JP4849663B2 (ja) | 会話制御装置 | |
JP4734155B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP3720068B2 (ja) | 質問の転記方法及び装置 | |
KR100563365B1 (ko) | 계층적 언어 모델 | |
CN106297800B (zh) | 一种自适应的语音识别的方法和设备 | |
JP3481497B2 (ja) | 綴り言葉に対する複数発音を生成し評価する判断ツリーを利用する方法及び装置 | |
US20010044724A1 (en) | Proofreading with text to speech feedback | |
JP2007115144A (ja) | 会話制御装置 | |
JP2000353161A (ja) | 自然言語生成における文体制御方法及び装置 | |
JP2003505778A (ja) | 音声制御ユーザインタフェース用の認識文法作成の特定用途を有する句ベースの対話モデル化 | |
CN101158947A (zh) | 机器翻译的方法和装置 | |
CN110782880B (zh) | 一种韵律生成模型的训练方法及装置 | |
KR101410601B1 (ko) | 유머 발화를 이용하는 음성 대화 시스템 및 그 방법 | |
Popescu-Belis et al. | Automatic identification of discourse markers in dialogues: An in-depth study of like and well | |
Sundaram et al. | An empirical text transformation method for spontaneous speech synthesizers. | |
JP2019101065A (ja) | 音声対話装置、音声対話方法及びプログラム | |
JP2012037790A (ja) | 音声対話装置 | |
Fan et al. | Just speak it: Minimize cognitive load for eyes-free text editing with a smart voice assistant | |
CN111968646A (zh) | 一种语音识别方法及装置 | |
US20230069113A1 (en) | Text Summarization Method and Text Summarization System | |
CN114218424B (zh) | 一种基于wav2vec的语气词插入的语音交互方法及系统 | |
JPH08248980A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |