CN111667813B - 处理文件的方法和装置 - Google Patents

处理文件的方法和装置 Download PDF

Info

Publication number
CN111667813B
CN111667813B CN201910169500.0A CN201910169500A CN111667813B CN 111667813 B CN111667813 B CN 111667813B CN 201910169500 A CN201910169500 A CN 201910169500A CN 111667813 B CN111667813 B CN 111667813B
Authority
CN
China
Prior art keywords
file
text file
syllable
phrase
reference text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910169500.0A
Other languages
English (en)
Other versions
CN111667813A (zh
Inventor
周舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jinghong Software Technology Co ltd
Original Assignee
Beijing Jinghong Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jinghong Software Technology Co ltd filed Critical Beijing Jinghong Software Technology Co ltd
Priority to CN201910169500.0A priority Critical patent/CN111667813B/zh
Publication of CN111667813A publication Critical patent/CN111667813A/zh
Application granted granted Critical
Publication of CN111667813B publication Critical patent/CN111667813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种处理文件的方法和装置,包括:将目标文本文件转换为第一音节文件,以及将参考文本文件转换为第二音节文件;在所述第一音节文件中,查找第一音节,其中,所述第一音节为所述目标文本文件中的第一词组的音节;在所述第二音节文件中,查找与所述第一音节相同的第二音节;在所述参考文本文件中,查找所述第二音节对应的第二词组;利用所述第二词组,修正所述第一词组。本申请提供的处理文件的方法和装置,能够提高转码正确率,同时由于转码正确率的提高,在匹配的过程中可以减小匹配误差,所评估出的分数能够作为一份可靠的数据进行使用。

Description

处理文件的方法和装置
技术领域
本申请实施例涉及信息技术领域,并且更为具体地,涉及一种处理文件的方法和装置。
背景技术
随着计算机技术的不断发展,计算机智能化的程度越来越高。现有的计算机或手机等终端设备都具有语音对话、语音视频等功能。随着录音质量的提高以及语音转文字引擎的发展,很多设备都可以实现语音转文字功能。
现有技术中通过简单的单一算法将语音转码为文字,然而这种方式在转码的过程中,由于一种语音可能会对应不同词汇,如汉语中的拼音“shizi”对应“柿子、狮子、石子”;英语中的音标对应“our,hour”等,因此可能会出现转码错误,若将这种转码出的结果直接应用于教学评分中,由于转码错误导致最后的评分出现误差,不利于教学结果评估。
因此,需要提供一种可以提高转码正确率的方案。
发明内容
本申请提供一种处理文件的方法和装置,能够提高转码正确率,同时由于转码正确率的提高,在匹配的过程中可以减小匹配误差,所评估出的分数能够作为一份可靠的数据进行使用。
第一方面,本申请提供一种处理文件的方法,该方法包括:将目标文本文件转换为第一音节文件,以及将参考文本文件转换为第二音节文件;在所述第一音节文件中,查找第一音节,其中,所述第一音节为所述目标文本文件中的第一词组的音节;在所述第二音节文件中,查找与所述第一音节相同的第二音节;在所述参考文本文件中,查找所述第二音节对应的第二词组;利用所述第二词组,修正所述第一词组。
在本申请提供的处理文件的方法中,将文本文件转换为音节文件之后,利用参考文本文件对目标文本文件中的第一词组进行修正,由于增加了修正这一步骤,因此提高了转码的正确率。相比于现有技术中将文本文件直接转换为音节文件,本申请提供的方案能够有效提高转码的正确率。
结合第一方面,在第一方面的一种可能的实现方式中,在所述在所述第一音节文件中,查找第一音节之前,所述方法还包括:确定是否修正所述第一词组,所述第一词组包括连续的至少两个词组;所述在所述第一音节文件中,查找第一音节,包括:当确定修正所述第一词组时,在所述第一音节文件中查找所述第一音节;其中,所述利用所述第二词组,修正所述第一词组,包括:利用所述第二词组,修正所述至少两个词组中的至少部分词组。
在本申请提供的处理文件的方法中,在所述第一音节文件中查找所述目标文本文件中的第一词组的第一音节前,先确定是否修正所述第一词组,能够避免将目标文本文件中的所有词组进行查询修正,能够降低处理的复杂度,进一步提高转码效率。
结合第一方面,在第一方面的一种可能的实现方式中,所述确定是否修正所述第一词组,包括:对所述第一词组进行评分,以获取评分结果;根据所述评分结果,确定是否修正所述第一词组。
结合第一方面,在第一方面的一种可能的实现方式中,所述对所述第一词组进行评分,包括:利用评分模型对所述第一词组进行评分,所述评分模型包括文本向量化模型。
在本申请提供的处理文件的方法中,通过具体的确定方式确定是否修正第一词组,能避免将目标文本文件中的所有词组进行查询修正,降低处理的复杂度,进一步提高转码效率。
结合第一方面,在第一方面的一种可能的实现方式中,在所述利用所述第二词组,修正所述第一词组后,所述方法还包括:将所述目标文本文件中的词组和所述参考文本文件的至少部分词组进行匹配,以获取匹配结果;根据所述匹配结果,对所述目标文本文件进行打分。
在本申请提供的处理文件的方法中,将修正后的目标文本文件中的词组和参考文本文件的至少部分词组进行匹配,再根据匹配结果进行打分,由于匹配的是修正后目标文本文件的词组和参考文本文件,因此在匹配的过程中可以减小匹配误差,所评估出的分数可以作为一份可靠的数据进行使用。
结合第一方面,在第一方面的一种可能的实现方式中,在所述将所述目标文本文件中的词组和所述参考文本文件的至少部分词组进行匹配,以获取匹配结果之前,所述方法还包括:确定所述参考文本文件中的词组的权重;根据所述参考文本文件中的词组的权重,从所述参考文本文件中确定用于匹配的所述至少部分词组。
在本申请提供的处理文件的方法中,在匹配之前,先确定参考文本文件中词组的权重,根据权重从参考文本文件中确定用于匹配的至少部分词组,能够避免需要将目标文本文件中所有词组和参考文本文件进行匹配,提高匹配效率。
结合第一方面,在第一方面的一种可能的实现方式中,所述确定所述参考文本文件中的词组的权重,包括:利用算法,确定所述参考文本文件中的词组的权重,所述算法为词频-逆文本频率指数算法。
在本申请提供的处理文件的方法中,通过确定参考文本文件中的词组的权重以及匹配条件,能够避免需要将目标文本文件中所有词组和参考文本文件进行匹配,提高了匹配效率。
结合第一方面,在第一方面的一种可能的实现方式中,在所述将目标文本文件转换为第一音节文件之前,所述方法还包括:对所述目标文本文件进行分词;所述将目标文本文件转换为第一音节文件,包括:将所述目标文本文件的名词转换为所述第一音节文件。
结合第一方面,在第一方面的一种可能的实现方式中,在所述将参考文本文件转换为第二音节文件之前,所述方法还包括:对所述参考文本文件进行分词;所述将参考文本文件转换为第二音节文件,包括:将所述参考文本文件的名词转换为所述第二音节文件。
在本申请提供的处理文件的方法中,在将文本文件转换为音节文件前,先对文本文件进行分词,将文本文件中的名词转换为音节文件,由于转换的只是名词,因此能够进一步提高转码效率。
结合第一方面,在第一方面的一种可能的实现方式中,所述目标文本文件是由音频文件或视频文件的语音转码而生成的。
结合第一方面,在第一方面的一种可能的实现方式中,所述将目标文本文件转换为第一音节文件,以及将参考文本文件转换为第二音节文件,包括:利用Python语言将目标文本文件转换为第一音节文件,以及将参考文本文件转换为第二音节文件。
在本申请提供一种处理文件的方法中,能够提高转码正确率,同时由于转码正确率的提高,在匹配的过程中可以减小匹配误差,所评估出的分数能够作为一份可靠的数据进行使用。
第二方面,本申请提供一种处理文件的方法,该方法包括:确定参考文本文件中的词组的权重;根据所述参考文本文件中的词组的权重,从所述参考文本文件中确定用于匹配的至少部分词组;将所述目标文本文件中的词组和所述参考文本文件的所述至少部分词组进行匹配,以获取匹配结果;根据所述匹配结果,对所述目标文本文件进行打分。
在本申请提供的处理文件的方法中,在匹配之前,先确定参考文本文件中词组的权重,根据权重从参考文本文件中确定用于匹配的至少部分词组,能够避免需要将目标文本文件中所有词组和参考文本文件进行匹配,提高匹配效率。
结合第二方面,在第二方面的一种可能的实现方式中,所述确定参考文本文件中的词组的权重,包括:利用算法确定所述参考文本文件中的词组的权重,所述算法为词频-逆文本频率指数算法。
结合第二方面,在第二方面的一种可能的实现方式中,所述目标文本文件是由音频文件或视频文件的语音转码而生成的。
结合第二方面,在第二方面的一种可能的实现方式中,所述目标文本文件是由音频文件/视频文件的语音转码而生成的,包括:
所述目标文本文件是由所述音频文件或视频文件的语音利用机器学习算法转码而生成的。
第三方面,本申请提供一种处理文件的装置,该装置包括:转换模块,用于将将目标文本文件转换为第一音节文件,以及将参考文本文件转换为第二音节文件;第一查找模块,用于在所述第一音节文件中,查找第一音节,其中,所述第一音节为所述目标文本文件中的第一词组的音节;第二查找模块,用于在所述第二音节文件中,查找与所述第一音节相同的第二音节;第三查找模块,用于在所述参考文本文件中,查找所述第二音节对应的第二词组;修正模块,用于利用所述第二词组,修正所述第一词组。
在本申请提供的处理文件的装置中,将文本文件转换为音节文件之后,利用参考文本文件对目标文本文件中的第一词组进行修正,由于增加了修正这一步骤,因此提高了转码的正确率。相比于现有技术中将文本文件直接转换为音节文件,本申请提供的方案能够有效提高转码的正确率。
第四方面,本申请提供一种处理文件的装置,该装置包括:第一确定模块,用于确定参考文本文件中的词组的权重;第二确定模块,用于根据所述参考文本文件中的词组的权重,从所述参考文本文件中确定用于匹配的至少部分词组;匹配模块,用于将所述目标文本文件中的词组和所述参考文本文件的所述至少部分词组进行匹配,以获取匹配结果;打分模块,用于根据所述匹配结果,对所述目标文本文件进行打分。
在本申请提供的处理文件的装置中,在匹配之前,先确定参考文本文件中词组的权重,根据权重从参考文本文件中确定用于匹配的至少部分词组,能够避免需要将目标文本文件中所有词组和参考文本文件进行匹配,提高匹配效率。
第五方面,本申请还提供了一种计算机(或手机等设备),包含上述的处理文件装置。
第六方面,本申请还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为执行上述的处理文件的方法。
第七方面,本申请还提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述的处理文件的方法。
第八方面,本申请还提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行时,使所述至少一个处理器执行上述的处理文件的方法。
附图说明
一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:
图1是应用本申请实施例的用于处理文件的方法的一个场景的示意图;
图2是本申请实施例提供的处理文件的方法的一个示意性流程图;
图3是本申请实施例提供的处理文件的方法的另一示意性流程图;
图4是本申请实施例提供的处理文件的方法的又一示意性流程图;
图5是本申请实施例提供的处理文件的方法的再一示意性流程图;
图6是本申请实施例提供的处理文件的方法的再一示意性流程图;
图7是本申请实施例提供的处理文件的方法的再一示意性流程图;
图8是本申请实施例提供的处理文件的方法的再一示意性流程图;
图9是本申请实施例提供的处理文件的装置的一个示意性框图;
图10是本申请实施例提供的处理文件的装置的另一个示意性框图;
图11是本申请实施例提供的处理文件的装置的又一个示意性框图;
图12是本申请实施例提供的处理文件的装置的再一个示意性框图;
图13是本申请实施例提供的处理文件的装置的再一个示意性框图;
图14是本申请实施例提供的处理文件的装置的再一个示意性框图;
图15是本申请实施例提供的处理文件的装置的再一个示意性框图;
图16是本申请实施例提供的处理文件的装置的再一个示意性框图;
图17是本申请实施例提供的处理文件的装置的再一个示意性框图;以及
图18是本申请实施例提供的电子设备的结构示意图。
具体实施方式
为了能够更加详尽地了解本申请的特点与技术内容,下面结合附图对本申请的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。
应理解,在本申请的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
除非另有说明,本申请实施例所使用的所有技术和科学术语与本申请的技术领域的技术人员通常理解的含义相同。本申请中所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本申请的范围。
下面结合图1,对本申请实施例的应用场景进行举例说明。
图1示出了应用本申请实施例的用于处理文件的方法的一个场景的示意图。如图1所示,处理文件的装置110与输入设备120通信连接,待处理文件通过输入设备120输入至装置110,装置110可以对输入的待处理文件进行处理。
例如,待处理文件可以是将教师的语音文件或视频文件中的语音进行转码得到的文本文件,此时对待处理文件的处理可以是对待处理文件进行修正和/或打分。在该种情况下,从输入设备120输入至装置110的文件还可以包括对待处理文件进行修正和/或打分所采用的参考文件。
输入设备120中可以输入一份文件也可以同时输入多份文件,本申请实施例对此不作限定。应理解,该一份文件包括待处理文件和参考文件。
装置110可以是具有信息处理能力的电子设备或系统,例如计算机。
装置110包括处理器,用于实现信息的处理,例如,根据获取的信息确定被处理文件的匹配情况以及得分情况。处理器可以为任意种类的处理器,本申请实施例对此不作限定。
装置110还可以包括存储器。该存储器可用于存储信息和指令,例如,实现本申请实施例的技术方法的计算机可执行指令。该存储器可以为任意种类的存储器,本申请实施例对此也不作限定。
装置110还可以包括通信接口,通过通信接口与输入设备120通信连接,该通信连接可以是有线方式,也可以是无线方式。
装置110还可以包括显示设备,用于显示处理结果,例如待处理文件的修正或得分情况。
本申请提供一种处理文件的方法200,如图2所示,该方法200可以由图1中的装置110执行。
210,将目标文本文件转换为第一音节文件,以及将参考文本文件转换为第二音节文件;
所述目标文本文件可以为待修正文本文件,所述参考文本文件为基础文件,例如,目标文本文件可以为具体的详细的文件,参考文本文件为大纲文件;例如,目标文本文件可以为教师讲课的音频文件或视频文件中的语音转码得到的文本文件,参考文本文件为教师的教案。本申请对此不作限定,只要目标文本文件和参考文本文件在内容上有具体和概括的关系均可应用本申请实施例。
所述音节文件为所述文本文件对应的发音文件,例如,目标文本文件和参考文本文件可以为中文,第一音节文件和第二音节文件为对应的拼音文件;例如,目标文本文件和参考文本文件可以为英文,第一音节文件和第二音节文件为对应的音标文件。本申请对此不作限定,只要文本文件和音节文件在文字和发音上有一音多词的特征均可应用本申请实施例。
220,在所述第一音节文件中,查找第一音节,其中,所述第一音节为所述目标文本文件中的第一词组的音节;
根据需要,可以通过多种方法实现查找的过程,例如,可以通过顺序查找,从第一音节文件中的开始部分逐个依次查找,相同即为查找成功;例如,还可以通过二分查找,从第一文件的中间部分开始查找,相等,查找成功,不等,则在大于或小于中间值的部分继续查找,直到查找成功。本申请对此不作限定,只要能够查找出第一词组对应的第一音节均可应用于本申请实施例。
230,在所述第二音节文件中,查找与所述第一音节相同的第二音节;
可以理解的是,若在第二音节文件中查找不到与第一音节相同的第二音节,则可以跳过该词组,继续对下一个词组进行处理。
240,在所述参考文本文件中,查找所述第二音节对应的第二词组;
在进行查找第二音节对应的第二词组时,可能会遇到一个音节对应两个不同的词组,如中文的拼音“shizi”在参考文本文件中同时查找到词组“柿子”和“狮子”,在这种情况下,可以根据上下文确定第二音节对应的第二词组。
250,利用所述第二词组,修正所述第一词组。
具体地,将目标文本文件和参考文本文件分别转换为音节文件,例如,将中文文件转换为拼音文件,在第一拼音文件中先查找第一词组的第一音节,如目标中文文本文件中的词组“柿子”,在第一拼音文件中查找其拼音“shizi”,再在第二拼音文件中查找相同的拼音“shizi”,然后在参考中文文本文件中查找拼音“shizi”所对应的词组,如果参考中文文本文件中所对应的词组为“狮子”,则将目标中文文本文件中的“柿子”修改为“狮子”;如果参考中文文本文件中所对应的词组就是“柿子”,则说明参考中文文本文件中的该词组是正确的,可以不用对其进行修改;如果参考文本文件中同时出现了“柿子”和“狮子”,则可以根据上下文判断修正第一词组。
可选地,在本申请实施例中,术语“文本文件”可以指的是文字语言文件,“音节文件”指的是发出这个文字的发音语言文件。例如,对于中文而言,“文本文件”即为以中文为基础的文字语言文件,“音节文件”以拼音为基础的发音语言文件;例如,对于英文而言,“文本文件”则是以英语为基础的文字语言文件,“音节文件”以音标为基础的发音语言文件。
应理解,目标文本文件可以为中文文件,参考文本文件可以为拼音文件,例如,上述提到的“shizi”对应有“柿子”、“狮子”、“石子”等;目标文本文件也可以为英文文件,参考文本文件为音标文件,例如英文中的音标对应的英语单词有“our,hour”等。本申请对此不作限定,只要目标文本文件和参考文本文件在语言和发音上有一音多词的特征均可应用本申请实施例。
在本申请提供的处理文件的方法中,将文本文件转换为音节文件之后,利用参考文本文件对目标文本文件中的第一词组进行修正,由于增加了修正这一步骤,因此提高了转码的正确率。相比于现有技术中将文本文件直接转换为音节文件,本申请提供的方案能够有效提高转码的正确率。
可选地,在一些实施例中,如图3所示,在220之前,该方法200还可以包括211。
211,确定是否修正所述第一词组,所述第一词组包括连续的至少两个词组。
具体地,在准备查找音节以便进行修正第一词组前,先确定是否需要修正第一词组,其中,第一词组可以是连续的至少两个词组,也可以是不连续的至少两个词组。
例如,目标文本文件中有一句如下文字“柿子抬头看了看小兔子”,第一词组可以是“柿子抬头”,也可以是“柿子看了看”,本申请对此不作限定。当确定需要修正第一词组的时候,再开始查找音节以修正第一词组。
其中,在修正的过程中,以参考文本文件中的第二词组为基准,对目标文本文件中的第一词组进行修正。如果参考文本文件中对应的文字是“狮子抬头看了看小兔子”,则将目标文本文件中的文字“柿子抬头看了看小兔子”修改为“狮子抬头看了看小兔子”。
在本申请提供的处理文件的方法中,在所述第一音节文件中查找所述目标文本文件中的第一词组的第一音节前,先确定是否修正所述第一词组,能够避免将目标文本文件中的所有词组进行查询修正,可以降低处理的复杂度,进一步提高转码效率。
此外,确定是否需要修正的第一词组可以是连续的至少两个词组,通常连续的词组之间是具有一定的逻辑关系的,可以通过其中的一个词组来判断另外一个词组是否正确,因此由于词组之间的连续性,能够提高确定是否需要修正词组的正确率,进一步提高处理效率。
可选地,作为一个实施例,在确定是否修正所述第一词组时,可以有多种方法,可以通过对所述第一词组进行评分,以获取评分结果;根据所述评分结果,确定是否修正所述第一词组。
具体地,在确定是否修正第一词组时,可以先对第一词组进行评分,即对连续或不连续的至少两个词组进行评分,再根据评分结果来确定是否修正第一词组。
应理解,上述通过评分的方法确定是否修正第一词组是可选的方法,还可以通过其他方法进行确定,例如通过数据库的比对等。只要通过确定方法能够确定出是否修正第一词组均可应用本申请,本申请实施例对此不作限定。
例如,通过确定该文件中的关键词所在的应用场景并在数据库中寻找对应的关键词确定是否修正,其中,该数据库包含多个场景的子数据库。
作为一个示例,参考文本文件的关键词是“狮子”、“小兔子”等,在包含有该关键词的子数据库中进行搜索,通过将从数据库中搜索出的文件和目标文本文件对比,确定出需要修正的第一词组。
可选地,作为一个实施例,在根据所述评分结果,确定是否修正所述第一词组,可以有多种方法。
可选地,可以通过判断评分结果是否小于或等于第一阈值,若评分结果小于第一阈值,确定修正第一词组。
具体地,若上述过程中对第一词组“柿子抬头”的评分结果为0.21,第一阈值为0.6,其中,第一阈值的具体数值可以通过多次对比经验所得,此时,对第一词组“柿子抬头”的评分结果小于第一阈值,则对第一词组“柿子抬头”进行修正。至于修正“柿子”还是“抬头”还是“柿子抬头”,根据参考文本文件中所对应的拼音的第二词组进行修正。
应理解,上述判断方法“通过判断评分结果是否小于第一阈值”确定是否修正第一词组,是一种可选的方法。也可以通过判断评分结果是否位于某一区间内进行确定,只要通过确定方法能够确定出是否修正第一词组均可应用本申请,本申请实施例对此不作限定。
可选地,作为一个实施例,对第一词组进行评分时,可以利用评分模型对第一词组进行评分,所述评分模型包括文本向量化模型。应理解,文本向量化模型是一种可选的评分模型,还可以利用其它模型进行评分,本申请对此不作限定,只要能够确定出第一词组的评分数值均可应用本申请。
在本申请提供的处理文件的方法中,通过具体的确定方式确定是否修正第一词组,能避免将目标文本文件中的所有词组进行查询修正,可以降低处理的复杂度,进一步提高转码效率。
可选地,在一些实施例中,如图4所示,在250之后,该方法200还可以包括260-270。
260,将所述目标文本文件中的词组和所述参考文本文件的至少部分词组进行匹配,以获取匹配结果;
270,根据所述匹配结果,对所述目标文本文件进行打分。
具体地,在将目标文本文件中第一词组修正完后,将目标文本文件中的词组的和参考文本文件的至少部分词组进行匹配,再根据匹配结果对目标文本文件进行打分。应理解,由于匹配的文件是修正后目标文本文件的词组和参考文本文件,因此,相比于在修正前目标文本文件中第一词组和参考文本文件匹配,本申请修正后的目标文本文件中的第一词组和参考文本文件匹配率可能会有所提高。还应理解,参考文本文件中的至少部分词组,可以是参考文本文件中确定的一些词组,也可以是参考文本文件中所有出现过的词组,本申请对此不作限定。
在本申请提供的处理文件的方法中,将修正后的文件中的词组和参考文本文件的至少部分词组进行匹配,再根据匹配结果进行打分,由于匹配的是修正后的文件和参考文本文件,因此在匹配的过程中可以减小匹配误差,所评估出的分数可以作为一份可靠的数据进行使用。
可选地,在一些实施例中,如图5所示,在260之前,该方法200还可以包括251-252。
251,确定所述参考文本文件中的词组的权重;
252,根据所述参考文本文件中的词组的权重,从所述参考文本文件中确定用于匹配的所述至少部分词组。
具体地,在将目标文本文件中的词组和参考文本文件进行匹配之前,可以先确定参考文本文件中的词组的权重,也就是对参考文本文件中的词组进行初步的计算,计算出参考文本文件的词组的重要性,再根据确定出的权重从参考文本文件中确定出用于匹配的至少部分词组。
应理解,由于确定出参考文本文件中的词组的权重也是为了确定哪些词组进行匹配的,因此也可以确定目标文本文件中的词组的权重,根据确定出的权重确定参考文本文件中的用于匹配的至少部分词组,本申请对此不作限定。
在本申请提供的处理文件的方法中,在匹配之前,先确定参考文本文件中每个词组的权重,根据权重确定哪些词组和参考文本文件进行匹配,能够避免需要将目标文本文件中所有词组和参考文本文件进行匹配,提高匹配效率。
可选地,作为一个实施例,在根据权重确定需要将目标文本文件中的词组和参考文本文件的至少部分词组进行匹配时,可以有多种方法,可选地,可以通过判断当所述权重大于或等于第二阈值时,将目标文本文件中的词组和参考文本文件的至少部分词组进行匹配。
应理解,上述提及的第二阈值可以按照需求自己设置,若需要匹配的词组少,可以将第二阈值的值设置的较大一些,若需要匹配的词组多,可以将第二阈值的值设置的较小一些,本申请对此不作限定。
还应理解,上述确定方法“通过判断所述权重是否大于或等于第二阈值”确定该词组是否匹配,是一种可选的方法。也可以通过其他方法进行确定,如判断所述权重是否位于某一区间,只要通过确定方法能够确定出是否匹配该词组均可应用本申请,本申请实施例对此不作限定。
可选地,作为一个实施例,确定参考文本文件中每个词组的权重,可以有多种方法,可选地,可以利用算法,确定参考文本文件中的词组的权重,所述算法为词频-逆文本频率指数算法。应理解,词频-逆文本频率指数算法是一种可选的算法,还可以利用其他算法进行确定,只要能够确定出词组的权重同时该词组出现的次数和在所有文件中出现的频率是反比的关系均可应用本申请,本申请实施例对此不作限定。
例如,“首先”、“的”一些常用词组在一篇文件中通常出现的次数较多,在其他文件中出现的频率可能也较大,这样的话,利用词频-逆文本频率指数算法确定出的常用词组的权重的数值比较小,在小于第二阈值的情况下,则可以确定对常用词组不进行匹配;对于在一份文件中出现的专有词组,一般情况下,很少在其他文件中出现,例如,一份文件中主要是描述“神经网络”的,则该文件中“神经网络”、“训练”等词组出现的次数可能比较多,在其他文件中如果不是关于“神经网络”的文件,一般“神经网络”、“训练”的词组出现的次数较少甚至没有,利用词频-逆文本频率指数算法确定出的常用词组的权重的数值比较大,在大于第二阈值的情况下,则可以确定对该词组进行匹配。
在本申请提供的处理文件的方法中,通过确定参考文本文件中的词组的权重以及匹配条件,能够避免需要将目标文本文件中所有词组和参考文本文件进行匹配,提高了匹配效率。
可选地,在一些实施例中,如图6所示,在210之前,该方法200还可以包括209。
209,对所述目标文本文件进行分词。
具体地,在将文本文件转换为音节文件之前,先对目标文本文件进行分词,可以将其分为名词,动词,形容词等,然后再将分出的名词转换为音节文件。例如,目标文本文件中有如下一句话,“柿子抬头看了看小兔子”,将该句分词后,将所有的名词转换为音节文件,则将“柿子”和“小兔子”转换为音节文件。最后利用名词所对应的拼音进行修正,从而进行匹配打分。
应理解,对目标文本文件进行分词,将名词转换为音节文件进行匹配打分是可选的方法,也可以将动词或形容词等转换为音节文件进行匹配打分,本申请对此不作限定。
还应理解,对目标文本文件进行分词,将名词转换为音节文件进行匹配打分是可选的方法,还可以将目标文本文件所有的词转换为音节文件,在匹配打分的时候,可以只选用名词进行匹配打分,本申请对此不作限定。
在本申请提供的处理文件的方法中,在将文本文件转换为音节文件前,先对文本文件进行分词,将文本文件中的名词转换为音节文件,由于转换的只是名词,或匹配的只是名词,因此能进一步提高转码效率。
可选地,在一些实施例中,如图7所示,在209之前,该方法200还可以包括208。
208,对所述参考文本文件进行分词。
类似地,在将文本文件转换为音节文件之前,先对参考文本文件进行分词,可以将其分为名词,动词,形容词等,然后再将分出的名词转换为音节文件。例如,参考文本文件中有如下一句话,“狮子抬头看了看小兔子”,将该句分词后,将所有的名词转换为音节文件,则将“狮子”和“小兔子”转换为音节文件。最后利用名词所对应的拼音进行修正目标文本文件,从而进行匹配打分。
在本申请提供的处理文件的方法中,在将文本文件转换为音节文件前,先对文本文件进行分词,将文本文件中的名词转换为音节文件,由于转换的只是名词,或匹配的只是名词,因此能进一步提高转码效率。
可选地,在一些实施例中,所述目标文本文件是由音频文件或视频文件的语音转码而生成的。
应理解,目标文本文件是详细的具体的文件,是需要修正的文本文件,目标文本文件可以是由音频文件或视频文件的语音转码而生成的,也可以是手写记录的文本文件,本申请对此不作限定。由于音频文件或视频文件的语音在转码的过程中,可能会发生转码错误,或我们在手写记录的时候会出现笔误,因此需要对其进行修正。
可选地,所述目标文本文件是由音频文件或视频文件的语音利用机器学习算法转码而生成的。具体地,机器学习算法可以是遗传算法,粒子群算法等,本申请对此不作限定,只要能够将音频文件或视频文件的语音转码成文本文件均可应用本申请。
可选地,在一些实施方式中,利用Python语言将目标文本文件转换为第一音节文件,以及将参考文本文件转换为第二音节文件。应理解,Python语言是一种可选的方式,还可以利用其他语言进行转换,例如C语言、Matlab语言等,本申请对此不作限定,只要能够将文本文件转换为音节文件均可应用本申请。
本申请提供一种处理文件的方法,能够提高转码正确率,同时由于转码正确率的提高,在匹配的过程中可以减小匹配误差,所评估出的分数能够作为一份可靠的数据进行使用。
如下所示是将老师上课的音频文件应用到本申请中所得到的一个结果:
首先第一个我们来输入一个人物的名字,谢太傅叫做书架的数是说了叫做谢安谢安这个人哪那有同学问谢安就西安对吧你就讨论就讨论结你干嘛还叫个草大师啊为什么这个世界太傅不叫在文章里面不写西安要谢谢大夫呢老师给大家简单介绍一下现在就是东晋时期的一个著名的政治家啊在中期呢他是归隐了知道啥叫规模唉就是找一片小竹林在里边住桥啊这叫归隐了好我们现在的理解呢是这样的,但其实在当时呢叫做我只要不参与朝政我只要不参与政治了其实就算作是归隐了,那么当时呢有一段时间谢大夫是婚姻的那中间出了一个是叫做肥水(修正为“淝水”)之战,啊这是历史上非常著名的以少胜多的一个战争,据说是8万,打多少你小时候多少有没有加上了10+000万,第一次12万非常好,121000次不做,三十万三十万一次没有更多的事吧,30200030万,第三次成交8万,那再说呗8万的80万,而且呢由于戏台之后特别的厉害,还答应啊你只需要记住这个就可以了OK所以唉最后它死了之后去世之后给它追封了一个泰富(修正为“太傅”)的这样的一个官职一个称号,所以的话呢后人再提到它的时候都尊称它为谢太傅,啊今天呢不上历史课,哈接下来这个就可以了。
通过应用本申请的方法,可以对老师上课的音频文件或视频文件的语音转码出的文本文件进行一个修正,由于增加了修正这一步骤,因此提高了转码的正确率。相比于现有技术中将文本文件直接转换为音节文件,本申请提供的方案能够有效提高转码的正确率。利用修正后的文本文件对授课老师的上课情况进行评估,所评估出的分数可以作为一份可靠的数据进行使用。
图8示出了根据本申请实施例的处理文件方法300的示意性流程图,该方法300包括310-340。
310,确定参考文本文件中的词组的权重;
320,根据所述参考文本文件中的词组的权重,从所述参考文本文件中确定用于匹配的至少部分词组;
330,将所述目标文本文件中的词组和所述参考文本文件的所述至少部分词组进行匹配,以获取匹配结果;
340,根据所述匹配结果,对所述目标文本文件进行打分。
具体地,在将目标文本文件和参考文本文件匹配之前,可以先确定参考文本文件中的词组的权重,然后再根据权重确定出用于匹配的至少部分词组,从而进行相应的打分。应理解,由于确定出参考文本文件中的词组的权重也是为了确定哪些词组进行匹配的,因此也可以确定目标文本文件中的词组的权重,根据确定出的权重确定参考文本文件中的用于匹配的至少部分词组,本申请对此不作限定。
在本申请提供的处理文件的方法中,在匹配之前,先确定参考文本文件中每个词组的权重,根据权重确定哪些词组和参考文本文件进行匹配,能够避免需要将目标文本文件中所有词组和参考文本文件进行匹配,提高匹配效率。
可选地,作为一个实施例,在根据权重确定需要将目标文本文件中的词组和参考文本文件的至少部分词组进行匹配时,可以有多种方法,可选地,可以通过判断当所述权重大于或等于第二阈值时,将目标文本文件中的词组和参考文本文件的至少部分词组进行匹配。
应理解,上述提及的第二阈值可以按照需求自己设置,若需要匹配的词组少,可以将第二阈值的值设置的较大一些,若需要匹配的词组多,可以将第二阈值的值设置的较小一些,本申请对此不作限定。
还应理解,上述确定方法“通过判断所述权重是否大于第二阈值”确定该词组是否匹配,是一种可选的方法。也可以通过其他方法进行确定,如判断所述权重是否位于某一区间,只要通过确定方法能够确定出是否匹配该词组均可应用本申请,本申请实施例对此不作限定。
可选地,作为一个实施例,确定参考文本文件中每个词组的权重,可以有多种方法,可选地,可以利用算法,确定参考文本文件中的词组的权重,所述算法为词频-逆文本频率指数算法。应理解,词频-逆文本频率指数算法是一种可选的算法,还可以利用其他算法进行确定,只要能够确定出词组的权重同时该词组出现的次数和在所有文件中出现的频率是反比的关系均可应用本申请,本申请实施例对此不作限定。
例如,“首先”、“的”一些常用词组在一篇文件中通常出现的次数较多,在其他文件中出现的频率可能也较大,这样的话,利用词频-逆文本频率指数算法确定出的常用词组的权重的数值比较小,在小于第二阈值的情况下,则可以确定对常用词组不进行匹配;对于在一份文件中出现的专有词组,一般情况下,很少在其他文件中出现,例如,一份文件中主要是描述“神经网络”的,则该文件中“神经网络”、“训练”等词组出现的次数可能比较多,在其他文件中如果不是关于“神经网络”的文件,一般“神经网络”、“训练”的词组出现的次数较少甚至没有,利用词频-逆文本频率指数算法确定出的常用词组的权重的数值比较大,在大于第二阈值的情况下,则可以确定对该词组进行匹配。
在本申请提供的处理文件的方法中,通过确定参考文本文件中的词组的权重以及匹配条件,能够避免需要将目标文本文件中所有词组和参考文本文件进行匹配,提高了匹配效率。
可选地,在一些实施例中,所述目标文本文件是由音频文件或视频文件的语音转码而生成的。
应理解,目标文本文件是详细的具体的文件,是需要修正的文本文件,目标文本文件可以是由音频文件或视频文件的语音转码而生成的,也可以是手写记录的文本文件,本申请对此不作限定。由于音频文件或视频文件的语音在转码的过程中,可能会发生转码错误,或我们在手写记录的时候会出现笔误,因此需要对其进行修正。
可选地,所述目标文本文件是由音频文件或视频文件的语音利用机器学习算法转码而生成的。具体地,机器学习算法可以是遗传算法,粒子群算法等,本申请对此不作限定,只要能够将音频文件或视频文件的语音转码成文本文件均可应用本申请。
可选地,在一些实施方式中,利用Python语言将目标文本文件转换为第一音节文件,以及将参考文本文件转换为第二音节文件。应理解,Python语言是一种可选的方式,还可以利用其他语言进行转换,例如C语言、Matlab语言等,本申请对此不作限定,只要能够将文本文件转换为音节文件均可应用本申请。
在本申请提供的处理文件的方法中,在匹配之前,先确定参考文本文件中每个词组的权重,根据权重确定哪些词组和参考文本文件进行匹配,能够避免需要将目标文本文件中所有词组和参考文本文件进行匹配,提高匹配效率。
上文结合图1-图8,详细描述了本申请实施例的方法实施例,下面结合图9-图18,描述本申请实施例的装置实施例,装置实施例与方法实施例相互对应,因此未详细描述的部分可参见前面各部分方法实施例,装置可以实现上述方法侧中任意可能实现的方式。
图9是本申请实施例提供的处理文件的装置400的示意性框图。如图9所示,该装置400包括转换模块410、第一查找模块420、第二查找模块430、第三查找模块440以及修正模块450。
转换模块410,用于将目标文本文件转换为第一音节文件,以及将参考文本文件转换为第二音节文件;
所述目标文本文件可以为待修正文本文件,所述参考文本文件为基础文件,例如,目标文本文件可以为具体的详细的文件,参考文本文件为大纲文件;例如,目标文本文件可以为教师讲课的音频文件或视频文件中的语音转码得到的文本文件,参考文本文件为教师的教案。本申请对此不作限定,只要目标文本文件和参考文本文件在内容上有具体和概括的关系均可应用本申请实施例。
所述音节文件为所述文本文件对应的发音文件,例如,目标文本文件和参考文本文件可以为中文,第一音节文件和第二音节文件为对应的拼音文件;例如,目标文本文件和参考文本文件可以为英文,第一音节文件和第二音节文件为对应的音标文件。本申请对此不作限定,只要文本文件和音节文件在文字和发音上有一音多词的特征均可应用本申请实施例。
第一查找模块420,用于在所述第一音节文件中,查找第一音节,其中,所述第一音节为所述目标文本文件中的第一词组的音节;
根据需要,可以通过多种方法实现查找的过程,例如,可以通过顺序查找,从第一音节文件中的开始部分逐个依次查找,相同即为查找成功;例如,还可以通过二分查找,从第一文件的中间部分开始查找,相等,查找成功,不等,则在大于或小于中间值的部分继续查找,直到查找成功。本申请对此不作限定,只要能够查找出第一词组对应的第一音节均可应用于本申请实施例。
第二查找模块430,用于在所述第二音节文件中,查找与所述第一音节相同的第二音节;
可以理解的是,若在第二音节文件中查找不到与第一音节相同的第二音节,则可以跳过该词组,继续对下一个词组进行处理。
第三查找模块440,用于在所述参考文本文件中,查找所述第二音节对应的第二词组;
在进行查找第二音节对应的第二词组时,可能会遇到一个音节对应两个不同的词组,如中文的拼音“shizi”在参考文本文件中同时查找到词组“柿子”和“狮子”,在这种情况下,可以根据上下文确定第二音节对应的第二词组。
修正模块450,用于利用所述第二词组,修正所述第一词组。
可选地,在本申请实施例中,术语“文本文件”可以指的是文字语言文件,“音节文件”指的是发出这个文字的发音语言文件。
应理解,目标文本文件可以为中文文件,参考文本文件可以为拼音文件,例如,上述提到的“shizi”对应有“柿子”、“狮子”、“石子”等;目标文本文件也可以为英文文件,参考文本文件为音标文件,例如英文中的音标对应的英语单词有“our,hour”等。本申请对此不作限定,只要目标文本文件和参考文本文件在语言和发音上有一音多词的特征均可应用本申请实施例。
在本申请提供的处理文件的装置中,将文本文件转换为音节文件之后,利用参考文本文件对目标文本文件中的第一词组进行修正,由于增加了修正这一步骤,因此提高了转码的正确率。相比于现有技术中将文本文件直接转换为音节文件,本申请提供的方案能够有效提高转码的正确率。
可选地,在一些实施例中,如图10所示,该装置400还可以包括第一确定模块411。
第一确定模块411,用于确定是否修正所述第一词组,所述第一词组包括连续的至少两个词组。
具体地,在准备查找音节以便进行修正第一词组前,先确定是否需要修正第一词组,其中,第一词组可以是连续的至少两个词组,也可以是不连续的至少两个词组。
在本申请提供的处理文件的装置中,在所述第一音节文件中查找所述目标文本文件中的第一词组的第一音节前,先确定是否修正所述第一词组,能够避免将目标文本文件中的所有词组进行查询修正,可以降低处理的复杂度,进一步提高转码效率。
可选地,在一些实施例中,如图11所示,第一确定模块411,可以包括:
评分单元412,用于对所述第一词组进行评分,以获取评分结果;
第一确定单元414,用于根据所述评分结果,确定是否修正所述第一词组。
具体地,在确定是否修正第一词组时,可以先对第一词组进行评分,即对连续或不连续的至少两个词组进行评分,再根据评分结果来确定是否修正第一词组。
可选地,作为一个实施例,对第一词组进行评分时,评分单元412可以利用评分模型对第一词组进行评分,所述评分模型包括文本向量化模型。应理解,文本向量化模型是一种可选的评分模型,还可以利用其它模型进行评分,本申请对此不作限定,只要能够确定出第一词组的评分数值均可应用本申请。
在本申请提供的处理文件的装置中,通过具体的确定方式确定是否修正第一词组,能避免将目标文本文件中的所有词组进行查询修正,可以降低处理的复杂度,进一步提高转码效率。
可选地,在一些实施例中,如图12所示,该装置400还可以包括匹配模块460和打分模块470。
匹配模块460,用于将所述目标文本文件中的词组和所述参考文本文件的至少部分词组进行匹配,以获取匹配结果;
打分模块470,用于根据所述匹配结果,对所述目标文本文件进行打分。
具体地,在将目标文本文件中第一词组修正完后,将目标文本文件中的词组的和参考文本文件的至少部分词组进行匹配,再根据匹配结果对目标文本文件进行打分。应理解,由于匹配的文件是修正后目标文本文件的词组和参考文本文件,因此,相比于在修正前目标文本文件中第一词组和参考文本文件匹配,本申请修正后的目标文本文件中的第一词组和参考文本文件匹配率可能会有所提高。还应理解,参考文本文件中的至少部分词组,可以是参考文本文件中确定的一些词组,也可以是参考文本文件中所有出现过的词组,本申请对此不作限定。
在本申请提供的处理文件的装置中,将修正后的文件中的词组和参考文本文件的至少部分词组进行匹配,再根据匹配结果进行打分,由于匹配的是修正后的文件和参考文本文件,因此在匹配的过程中可以减小匹配误差,所评估出的分数可以作为一份可靠的数据进行使用。
可选地,在一些实施例中,如图13所示,该装置400还可以包括第二确定模块451和第三确定模块452。
第二确定模块451,用于确定所述参考文本文件中的词组的权重;
第三确定模块452,用于根据所述参考文本文件中的词组的权重,从所述参考文本文件中确定用于匹配的所述至少部分词组。
具体地,在将目标文本文件中的词组和参考文本文件进行匹配之前,可以先确定参考文本文件中的词组的权重,也就是对参考文本文件中的词组进行初步的计算,计算出参考文本文件的词组的重要性,再根据确定出的权重从参考文本文件中确定出用于匹配的至少部分词组。
应理解,由于确定出参考文本文件中的词组的权重也是为了确定哪些词组进行匹配的,因此也可以确定目标文本文件中的词组的权重,根据确定出的权重确定参考文本文件中的用于匹配的至少部分词组,本申请对此不作限定。
在本申请提供的处理文件的装置中,在匹配之前,先确定参考文本文件中每个词组的权重,根据权重确定哪些词组和参考文本文件进行匹配,能够避免需要将目标文本文件中所有词组和参考文本文件进行匹配,提高匹配效率。
可选地,作为一个实施例,确定参考文本文件中每个词组的权重,可以有多种方法,可选地,第二确定模块451可以利用算法,确定参考文本文件中的词组的权重,所述算法为词频-逆文本频率指数算法。应理解,词频-逆文本频率指数算法是一种可选的算法,还可以利用其他算法进行确定,只要能够确定出词组的权重同时该词组出现的次数和在所有文件中出现的频率是反比的关系均可应用本申请,本申请实施例对此不作限定。
在本申请提供的处理文件的装置中,通过确定参考文本文件中的词组的权重以及匹配条件,能够避免需要将目标文本文件中所有词组和参考文本文件进行匹配,提高了匹配效率。
可选地,在一些实施例中,如图14所示,该装置400还可以包括分词模块409。
分词模块409,用于对所述目标文本文件进行分词;
应理解,对目标文本文件进行分词,将名词转换为音节文件进行匹配打分是可选的方法,也可以将动词或形容词等转换为音节文件进行匹配打分,本申请对此不作限定。
还应理解,对目标文本文件进行分词,将名词转换为音节文件进行匹配打分是可选的方法,还可以将目标文本文件所有的词转换为音节文件,在匹配打分的时候,可以只选用名词进行匹配打分,本申请对此不作限定。
在本申请提供的处理文件的装置中,在将文本文件转换为音节文件前,先对文本文件进行分词,将文本文件中的名词转换为音节文件,由于转换的只是名词,或匹配的只是名词,因此能进一步提高转码效率。
可选地,在一些实施例中,分词模块409还用于对所述参考文本文件进行分词。
在本申请提供的处理文件的装置中,在将文本文件转换为音节文件前,先对文本文件进行分词,将文本文件中的名词转换为音节文件,由于转换的只是名词,或匹配的只是名词,因此能进一步提高转码效率。
可选地,在一些实施例中,如图15所示,该装置400还可以包括转码模块408。
转码模块408,用于将音频文件或视频文件的语音转码生成目标文本文件。
应理解,目标文本文件是详细的具体的文件,是需要修正的文本文件,目标文本文件可以是由音频文件或视频文件的语音转码而生成的,也可以是手写记录的文本文件,本申请对此不作限定。由于音频文件或视频文件的语音在转码的过程中,可能会发生转码错误,或我们在手写记录的时候会出现笔误,因此需要对其进行修正。
可选地,所述目标文本文件是由音频文件或视频文件的语音利用机器学习算法转码而生成的。具体地,机器学习算法可以是遗传算法,粒子群算法等,本申请对此不作限定,只要能够将音频文件或视频文件的语音转码成文本文件均可应用本申请。
可选地,在一些实施方式中,利用Python语言将目标文本文件转换为第一音节文件,以及将参考文本文件转换为第二音节文件。应理解,Python语言是一种可选的方式,还可以利用其他语言进行转换,例如C语言、Matlab语言等,本申请对此不作限定,只要能够将文本文件转换为音节文件均可应用本申请。
本申请提供一种处理文件的装置,能够提高转码正确率,同时由于转码正确率的提高,在匹配的过程中可以减小匹配误差,所评估出的分数能够作为一份可靠的数据进行使用。
图16示出了根据本申请实施例的处理文件装置500的示意性框图,该装置500包括第一确定模块510、第二确定模块520、匹配模块530以及打分模块540。
第一确定模块510,用于确定参考文本文件中的词组的权重;
第二确定模块520,用于根据所述参考文本文件中的词组的权重,从所述参考文本文件中确定用于匹配的至少部分词组;
匹配模块530,用于将所述目标文本文件中的词组和所述参考文本文件的所述至少部分词组进行匹配,以获取匹配结果;
打分模块540,用于根据所述匹配结果,对所述目标文本文件进行打分。
具体地,在将目标文本文件和参考文本文件匹配之前,可以先确定参考文本文件中的词组的权重,然后再根据权重确定出用于匹配的至少部分词组,从而进行相应的打分。应理解,由于确定出参考文本文件中的词组的权重也是为了确定哪些词组进行匹配的,因此也可以确定目标文本文件中的词组的权重,根据确定出的权重确定参考文本文件中的用于匹配的至少部分词组,本申请对此不作限定。
在本申请提供的处理文件的装置中,在匹配之前,先确定参考文本文件中每个词组的权重,根据权重确定哪些词组和参考文本文件进行匹配,能够避免需要将目标文本文件中所有词组和参考文本文件进行匹配,提高匹配效率。
可选地,作为一个实施例,确定参考文本文件中每个词组的权重,可以有多种方法,可选地,第二确定模块520,可以利用算法,确定参考文本文件中的词组的权重,所述算法为词频-逆文本频率指数算法。应理解,词频-逆文本频率指数算法是一种可选的算法,还可以利用其他算法进行确定,只要能够确定出词组的权重同时该词组出现的次数和在所有文件中出现的频率是反比的关系均可应用本申请,本申请实施例对此不作限定。
在本申请提供的处理文件的装置中,通过确定参考文本文件中的词组的权重以及匹配条件,能够避免需要将目标文本文件中所有词组和参考文本文件进行匹配,提高了匹配效率。
可选地,在一些实施例中,如图17所示,该装置500还可以包括转码模块509。
转码模块509,用于将音频文件或视频文件的语音转码生成目标文本文件。
应理解,目标文本文件是详细的具体的文件,是需要修正的文本文件,目标文本文件可以是由音频文件或视频文件的语音转码而生成的,也可以是手写记录的文本文件,本申请对此不作限定。由于音频文件或视频文件的语音在转码的过程中,可能会发生转码错误,或我们在手写记录的时候会出现笔误,因此需要对其进行修正。
可选地,所述目标文本文件是由音频文件或视频文件的语音利用机器学习算法转码而生成的。具体地,机器学习算法可以是遗传算法,粒子群算法等,本申请对此不作限定,只要能够将音频文件或视频文件的语音转码成文本文件均可应用本申请。
可选地,在一些实施方式中,利用Python语言将目标文本文件转换为第一音节文件,以及将参考文本文件转换为第二音节文件。应理解,Python语言是一种可选的方式,还可以利用其他语言进行转换,例如C语言、Matlab语言等,本申请对此不作限定,只要能够将文本文件转换为音节文件均可应用本申请。
在本申请提供的处理文件的装置中,在匹配之前,先确定参考文本文件中每个词组的权重,根据权重确定哪些词组和参考文本文件进行匹配,能够避免需要将目标文本文件中所有词组和参考文本文件进行匹配,提高匹配效率。
本申请实施例还提供了一种计算机(或手机等设备),包含上述的处理文件装置400或500。
本申请实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为执行上述处理文件方法200或300。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述处理文件方法200或300。
上述的计算机可读存储介质可以是暂态计算机可读存储介质,也可以是非暂态计算机可读存储介质。
本申请实施例还提供了一种电子设备600,其结构如图18所示,该电子设备包括:
至少一个处理器(processor)610,图18中以一个处理器610为例;和存储器(memory)620,还可以包括通信接口(Communication Interface)640和总线630。其中,处理器610、通信接口640、存储器620可以通过总线630完成相互间的通信。通信接口640可以用于信息传输。处理器610可以调用存储器620中的逻辑指令,以执行上述实施例的处理文件方法。
此外,上述的存储器620中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器620作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本申请实施例中的方法对应的程序指令或模块。处理器610通过运行存储在存储器620中的软件程序、指令以及模块,从而执行功能应用以及数据处理,即实现上述方法实施例中的处理文件方法。
存储器620可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器。
本申请实施例的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括一个或多个指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
当用于本申请中时,虽然术语“第一”、“第二”等可能会在本申请中使用以描述各设备,但这些设备不应受到这些术语的限制。这些术语仅用于将一个设备与另一个设备区别开。比如,在不改变描述的含义的情况下,第一设备可以叫做第二设备,并且同样地,第二设备可以叫做第一设备,只要所有出现的“第一设备”一致重命名并且所有出现的“第二设备”一致重命名即可。第一设备和第二设备都是设备,但可以不是相同的设备。
本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地,如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外,当用于本申请中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。
所描述的实施例中的各方面、实施方式、实现或特征能够单独使用或以任意组合的方式使用。所描述的实施例中的各方面可由软件、硬件或软硬件的结合实现。所描述的实施例也可以由存储有计算机可读代码的计算机可读介质体现,该计算机可读代码包括可由至少一个计算装置执行的指令。所述计算机可读介质可与任何能够存储数据的数据存储装置相关联,该数据可由计算机系统读取。用于举例的计算机可读介质可以包括只读存储器、随机存取存储器、CD-ROM、HDD、DVD、磁带以及光数据存储装置等。所述计算机可读介质还可以分布于通过网络联接的计算机系统中,这样计算机可读代码就可以分布式存储并执行。
上述技术描述可参照附图,这些附图形成了本申请的一部分,并且通过描述在附图中示出了依照所描述的实施例的实施方式。虽然这些实施例描述的足够详细以使本领域技术人员能够实现这些实施例,但这些实施例是非限制性的;这样就可以使用其它的实施例,并且在不脱离所描述的实施例的范围的情况下还可以做出变化。比如,流程图中所描述的操作顺序是非限制性的,因此在流程图中阐释并且根据流程图描述的两个或两个以上操作的顺序可以根据若干实施例进行改变。作为另一个例子,在若干实施例中,在流程图中阐释并且根据流程图描述的一个或一个以上操作是可选的,或是可删除的。另外,某些步骤或功能可以添加到所公开的实施例中,或两个以上的步骤顺序被置换。所有这些变化被认为包含在所公开的实施例以及权利要求中。
另外,上述技术描述中使用术语以提供所描述的实施例的透彻理解。然而,并不需要过于详细的细节以实现所描述的实施例。因此,实施例的上述描述是为了阐释和描述而呈现的。上述描述中所呈现的实施例以及根据这些实施例所公开的例子是单独提供的,以添加上下文并有助于理解所描述的实施例。上述说明书不用于做到无遗漏或将所描述的实施例限制到本申请的精确形式。根据上述教导,若干修改、选择适用以及变化是可行的。在某些情况下,没有详细描述为人所熟知的处理步骤以避免不必要地影响所描述的实施例。
以上所述,仅为本申请实施例的具体实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。因此,本申请实施例的保护范围应以所述权利要求的保护范围为准。

Claims (20)

1.一种处理文件的方法,其特征在于,包括:
将目标文本文件转换为第一音节文件,以及将参考文本文件转换为第二音节文件;
在所述第一音节文件中,查找第一音节,其中,所述第一音节为所述目标文本文件中的第一词组的音节;
在所述第二音节文件中,查找与所述第一音节相同的第二音节;
在所述参考文本文件中,查找所述第二音节对应的第二词组;
利用所述第二词组,修正所述第一词组;
在所述第一音节文件中,查找第一音节之前,所述方法还包括:
对所述第一词组进行评分,以获取评分结果,所述第一词组包括连续的至少两个词组;
根据所述评分结果,确定是否修正所述第一词组;
所述在所述第一音节文件中,查找第一音节,包括:
当确定修正所述第一词组时,在所述第一音节文件中查找所述第一音节;
其中,所述利用所述第二词组,修正所述第一词组,包括:
利用所述第二词组,修正所述至少两个词组中的至少部分词组。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一词组进行评分,包括:
利用评分模型对所述第一词组进行评分,所述评分模型包括文本向量化模型。
3.根据权利要求1或2所述的方法,其特征在于,在所述利用所述第二词组,修正所述第一词组之后,所述方法还包括:
将所述目标文本文件中的词组和所述参考文本文件的至少部分词组进行匹配,以获取匹配结果;
根据所述匹配结果,对所述目标文本文件进行打分。
4.根据权利要求3所述的方法,其特征在于,在所述将所述目标文本文件中的词组和所述参考文本文件的至少部分词组进行匹配,以获取匹配结果之前,所述方法还包括:
确定所述参考文本文件中的词组的权重;
根据所述参考文本文件中的词组的权重,从所述参考文本文件中确定用于匹配的所述至少部分词组。
5.根据权利要求4所述的方法,其特征在于,所述确定所述参考文本文件中的词组的权重,包括:
利用算法,确定所述参考文本文件中的词组的权重,所述算法为词频-逆文本频率指数算法。
6.根据权利要求1或2所述的方法,其特征在于,在所述将目标文本文件转换为第一音节文件之前,所述方法还包括:对所述目标文本文件进行分词;
所述将目标文本文件转换为第一音节文件,包括:
将所述目标文本文件的名词转换为所述第一音节文件。
7.根据权利要求1或2所述的方法,其特征在于,在所述将参考文本文件转换为第二音节文件之前,所述方法还包括:对所述参考文本文件进行分词;
所述将参考文本文件转换为第二音节文件,包括:
将所述参考文本文件的名词转换为所述第二音节文件。
8.根据权利要求1或2所述的方法,其特征在于,所述目标文本文件是由音频文件或视频文件的语音转码而生成的。
9.根据权利要求1或2所述的方法,其特征在于,所述将目标文本文件转换为第一音节文件,以及将参考文本文件转换为第二音节文件,包括:
利用Python语言将目标文本文件转换为第一音节文件,以及将参考文本文件转换为第二音节文件。
10.一种处理文件的装置,其特征在于,包括:
转换模块,用于将目标文本文件转换为第一音节文件,以及将参考文本文件转换为第二音节文件;
第一查找模块,用于在所述第一音节文件中,查找第一音节,其中,所述第一音节为所述目标文本文件中的第一词组的音节;
第二查找模块,用于在所述第二音节文件中,查找与所述第一音节相同的第二音节;
第三查找模块,用于在所述参考文本文件中,查找所述第二音节对应的第二词组;
修正模块,用于利用所述第二词组,修正所述第一词组;
所述装置还包括:
第一确定模块,用于对所述第一词组进行评分,以获取评分结果,所述第一词组包括连续的至少两个词组;
所述第一确定模块还用于,根据所述评分结果,确定是否修正所述第一词组;
所述第一查找模块具体用于:
当确定修正所述第一词组时,在所述第一音节文件中查找所述第一音节;
其中,所述修正模块具体用于:
利用所述第二词组,修正所述至少两个词组中的至少部分词组。
11.根据权利要求10所述的装置,其特征在于,所述第一确定模块具体用于利用评分模型对所述第一词组进行评分,所述评分模型包括文本向量化模型。
12.根据权利要求10或11所述的装置,其特征在于,所述装置还包括:
匹配模块,用于将所述目标文本文件中的词组和所述参考文本文件的至少部分词组进行匹配,以获取匹配结果;
打分模块,用于根据所述匹配结果,对所述目标文本文件进行打分。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
第二确定模块,用于确定所述参考文本文件中的词组的权重;
第三确定模块,用于根据所述参考文本文件中的词组的权重,从所述参考文本文件中确定用于匹配的所述至少部分词组。
14.根据权利要求13所述的装置,其特征在于,所述第二确定模块具体用于:
利用算法,确定所述参考文本文件中的词组的权重,所述算法为词频-逆文本频率指数算法。
15.根据权利要求10或11所述的装置,其特征在于,所述装置还包括:
分词模块,用于对所述目标文本文件进行分词;
所述转换模块具体用于:
将所述目标文本文件的名词转换为所述第一音节文件。
16.根据权利要求15所述的装置,其特征在于,所述分词模块还用于对所述参考文本文件进行分词;
所述转换模块具体用于将所述参考文本文件的名词转换为所述第二音节文件。
17.根据权利要求10或11所述的装置,其特征在于,所述装置还包括:
转码模块,用于将音频文件或视频文件的语音转码生成目标文本文件。
18.根据权利要求10或11所述的装置,其特征在于,所述转换模块具体用于:
利用Python语言将目标文本文件转换为第一音节文件,以及将参考文本文件转换为第二音节文件。
19.一种处理文件的装置,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行时,使所述至少一个处理器执行权利要求1至9中任一项所述的方法。
20.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令设置为执行权利要求1至9中任一项所述的方法。
CN201910169500.0A 2019-03-06 2019-03-06 处理文件的方法和装置 Active CN111667813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910169500.0A CN111667813B (zh) 2019-03-06 2019-03-06 处理文件的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910169500.0A CN111667813B (zh) 2019-03-06 2019-03-06 处理文件的方法和装置

Publications (2)

Publication Number Publication Date
CN111667813A CN111667813A (zh) 2020-09-15
CN111667813B true CN111667813B (zh) 2024-04-19

Family

ID=72382306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910169500.0A Active CN111667813B (zh) 2019-03-06 2019-03-06 处理文件的方法和装置

Country Status (1)

Country Link
CN (1) CN111667813B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6513005B1 (en) * 1999-07-27 2003-01-28 International Business Machines Corporation Method for correcting error characters in results of speech recognition and speech recognition system using the same
CN103714048A (zh) * 2012-09-29 2014-04-09 国际商业机器公司 用于校正文本的方法和系统
CN104166462A (zh) * 2013-05-17 2014-11-26 北京搜狗科技发展有限公司 一种文字的输入方法和系统
CN105893533A (zh) * 2016-03-31 2016-08-24 北京奇艺世纪科技有限公司 一种文本匹配方法及装置
CN107229627A (zh) * 2016-03-24 2017-10-03 华为技术有限公司 一种文本处理方法、装置及计算设备
CN108717412A (zh) * 2018-06-12 2018-10-30 北京览群智数据科技有限责任公司 基于中文分词的中文校对纠错方法及系统
CN108804414A (zh) * 2018-05-04 2018-11-13 科沃斯商用机器人有限公司 文本修正方法、装置、智能设备及可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6513005B1 (en) * 1999-07-27 2003-01-28 International Business Machines Corporation Method for correcting error characters in results of speech recognition and speech recognition system using the same
CN103714048A (zh) * 2012-09-29 2014-04-09 国际商业机器公司 用于校正文本的方法和系统
CN104166462A (zh) * 2013-05-17 2014-11-26 北京搜狗科技发展有限公司 一种文字的输入方法和系统
CN107229627A (zh) * 2016-03-24 2017-10-03 华为技术有限公司 一种文本处理方法、装置及计算设备
CN105893533A (zh) * 2016-03-31 2016-08-24 北京奇艺世纪科技有限公司 一种文本匹配方法及装置
CN108804414A (zh) * 2018-05-04 2018-11-13 科沃斯商用机器人有限公司 文本修正方法、装置、智能设备及可读存储介质
CN108717412A (zh) * 2018-06-12 2018-10-30 北京览群智数据科技有限责任公司 基于中文分词的中文校对纠错方法及系统

Also Published As

Publication number Publication date
CN111667813A (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
CN108536654B (zh) 识别文本展示方法及装置
CN113811946A (zh) 数字序列的端到端自动语音识别
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
JP5809381B1 (ja) 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム
CN112992125B (zh) 一种语音识别方法、装置、电子设备、可读存储介质
CN113449514B (zh) 一种适用于垂直领域的文本纠错方法及其纠错装置
KR20230061001A (ko) 문서 교정 장치 및 방법
CN114118022A (zh) 文本表示方法、装置、电子设备与存储介质
CN115587590A (zh) 训练语料集构建方法、翻译模型训练方法、翻译方法
KR101929509B1 (ko) 형태소 합성 장치 및 방법
CN111126059A (zh) 一种短文文本的生成方法、生成装置及可读存储介质
CN111667813B (zh) 处理文件的方法和装置
CN109002454B (zh) 一种确定目标单词的拼读分区的方法和电子设备
CN112151019A (zh) 文本处理方法、装置及计算设备
US20100145677A1 (en) System and Method for Making a User Dependent Language Model
CN115858776A (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
JP4405542B2 (ja) 音素モデルをクラスタリングする装置、方法およびプログラム
CN110428668B (zh) 一种数据提取方法、装置、计算机系统及可读存储介质
CN111090720B (zh) 一种热词的添加方法和装置
CN116484842A (zh) 语句纠错的方法及装置、电子设备、存储介质
CN114330375A (zh) 一种基于固定范式的术语翻译方法及系统
CN111695350B (zh) 一种文本的分词方法及分词装置
CN113793611A (zh) 评分方法、装置、计算机设备和存储介质
CN113283218A (zh) 一种语义文本压缩方法及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant