CN104143331B - 一种添加标点的方法和系统 - Google Patents

一种添加标点的方法和系统 Download PDF

Info

Publication number
CN104143331B
CN104143331B CN201310198454.XA CN201310198454A CN104143331B CN 104143331 B CN104143331 B CN 104143331B CN 201310198454 A CN201310198454 A CN 201310198454A CN 104143331 B CN104143331 B CN 104143331B
Authority
CN
China
Prior art keywords
word
feature
punctuate
feature unit
voice document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310198454.XA
Other languages
English (en)
Other versions
CN104143331A (zh
Inventor
刘海波
王尔玉
张翔
卢鲤
岳帅
陈波
李露
刘荐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310198454.XA priority Critical patent/CN104143331B/zh
Priority to PCT/CN2013/085347 priority patent/WO2014187069A1/en
Priority to US14/160,808 priority patent/US9779728B2/en
Publication of CN104143331A publication Critical patent/CN104143331A/zh
Application granted granted Critical
Publication of CN104143331B publication Critical patent/CN104143331B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种添加标点的方法和系统。该方法包括:将待处理语音文件作为整体,根据其中包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N1;基于静音检测将所述待处理语音文件分为一个以上的待处理语段,根据每个待处理语段包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N2;利用基于分词和词语的语义特征建立的语言模型,根据所述所有特征单元N1和N2确定所述待处理语音文件的各种标点状态的第一综合权重和第二综合权重;对所述第一综合权重和第二综合权重进行加权得到第三综合权重,根据所述第三综合权重为所述待处理语音文件添加标点。应用本发明能提高添加标点准确性。

Description

一种添加标点的方法和系统
技术领域
本申请涉及信息处理技术领域,尤其涉及一种添加标点的方法和系统。
背景技术
在通信领域以及互联网领域,在某些应用场景中需要为一些缺少标点的文件添加标点,例如,为语音文件添加标点。
关于为语音文件添加标点,目前存在着一种基于分字处理以及每个字所处位置来添加标点的方案。
在所述方案中,预先对语料库中的语句进行分字处理,确定每个字在语句中所处的位置,即是处于句子的开始、中间还是结束,并确定每个字后面的标点符号情况,例如有无标点符号等,根据语料库中每个字所处的位置以及每个字后面的标点符号情况建立语言模型,在实际添加标点的过程中,将待处理语音文件作为一个整体,根据该待处理语音文件中出现的每个字,利用基于分字建立的语言模型为所述待处理语音文件添加标点。
可见,利用单个字在句子中的位置以及单个字后面是否有标点来建立语言模型,由于所利用的信息有限,且所利用的信息与标点状态的关联性不强,因此所建立的语言模型并不能提取出语句所蕴含的信息与语句的标点状态之间的真实关系,并且,将待处理语音文件简单地作为一个整体来添加标点,也没有考虑到待处理语音文件内部的结构特征,因此,综合上述因素,导致目前为语音文件添加标点的准确性仍然较低。
发明内容
本发明提供了一种添加标点的方法和系统,能够提高添加标点的准确性。
一种添加标点的方法,该方法包括:
将待处理语音文件作为整体,根据作为整体的所述待处理语音文件中包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N1;
基于静音检测将所述待处理语音文件分为一个以上的待处理语段,根据每个待处理语段包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N2;
利用基于分词和词语的语义特征建立的语言模型,根据所述所有特征单元N1确定所述待处理语音文件的各种标点状态的第一综合权重,根据所述所有特征单元N2确定所述待处理语音文件的各种标点状态的第二综合权重;
对所述待处理语音文件的各种标点状态的第一综合权重和第二综合权重进行加权处理,得到第三综合权重,根据所述第三综合权重为所述待处理语音文件添加标点。
一种添加标点的系统,该系统包括静音检测模块、识别模块和标点添加模块;
所述静音检测模块,用于基于静音检测将待处理语音文件分为一个以上的待处理语段;
所述识别模块,用于将待处理语音文件作为整体,根据作为整体的所述待处理语音文件中包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N1,根据每个所述待处理语段包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N2;
所述标点添加模块,用于利用基于分词和词语的语义特征建立的语言模型,根据所述所有特征单元N1确定所述待处理语音文件的各种标点状态的第一综合权重,根据所述所有特征单元N2确定所述待处理语音文件的各种标点状态的第二综合权重,对所述待处理语音文件的各种标点状态的第一综合权重和第二综合权重进行加权处理,得到第三综合权重,根据所述第三综合权重为所述待处理语音文件添加标点。
由上述技术方案可见,由于本发明在添加标点所利用的语言模型是基于分词和词语的语义特征建立的,由于进行的是分词处理而非分字处理,并且进一步利用词在语句中的语义特征,由于词在语句中的语义特征往往与词的标点状态有着较强的关联性,因此,通过基于对语料库进行分词和词在所述语料库中的语义特征来建立语言模型,能够提取出语句中所蕴含的信息(即所包含的词和词的语义特征)与语句的标点状态的真实关系,进而能够提高添加标点的准确性。
并且,由于本发明在利用基于分词和词语的语义特征建立的语言模型为待处理语音文件添加标点时,在将待处理语音文件作为整体确定待处理语音文件的各种标点状态的综合权重(记为第一综合权重)的同时,还考虑了所述语言文件的内部结构特征,通过静音检测将待处理语音文件分为一个以上的待处理语段,根据每个待处理语段包含的每个词和每个词的语义特征确定待处理语音文件的各种标点状态的综合权重(记为第二综合权重),通过对所述第一综合权重和第二综合权重进行加权处理第三综合权重,根据第三综合权重为待处理语音文件添加标点。
由于待处理语音文件的内部结构特征对待处理语音文件中各个词的语义特征会产生影响,进而会影响待处理语音文件中出现的特征单元,因而最终影响待处理语音文件的标点添加结果,因此,本发明通过基于静音检测将待处理语音文件分为一个以上的待处理语段,基于待处理语段中包含的每个词和每个词的语义特征识别待处理语音文件中出现的特征单元,从而考虑了待处理语音文件内部的结构特征对待处理语音文件标点状态的影响,从而进一步提高了为待处理语音文件添加标点的准确性。
附图说明
图1是本发明实施例提供的添加标点的方法流程图。
图2是本发明实施例提供的标点添加系统的第一组成示意图。
图3是本发明实施例提供的标点添加系统的第二组成示意图。
图4是本发明实施例提供的用于添加标点的语言模型建立方法第一流程图。
图5是本发明提供的用于添加标点的语言模型建立方法第二流程图。
图6是基于本发明实施例提供的语言模型采用本发明实施例提供的标点添加方法和系统为待处理语音文件添加标点的流程图。
具体实施方式
图1是本发明实施例提供的添加标点的方法流程图。
如图1所述,该流程包括:
步骤101,将待处理语音文件作为整体,根据作为整体的所述待处理语音文件中包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N1。
步骤102,基于静音检测将所述待处理语音文件分为一个以上的待处理语段,根据每个待处理语段包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N2。
其中,所述的语义特征一般包括词语的词性和/或句子成分,同一个词语的词性和/或句子成分在不同的语境中可以相同也可以不同。
步骤103,利用基于分词和词语的语义特征建立的语言模型,根据所述所有特征单元N1确定所述待处理语音文件的各种标点状态的第一综合权重,根据所述所有特征单元N2确定所述待处理语音文件的各种标点状态的第二综合权重。
其中,基于分词和词语的语义特征建立的语言模型中存储有每个特征单元与自身各种标点状态的权重的对应关系。
在根据所述所有特征单元N1确定所述待处理语音文件的各种标点状态的第一综合权重时,从所述语言模型中获取所述所有特征单元N1中的每个特征单元与自身各种标点状态的权重的对应关系,根据获取的所述对应关系确定所述待处理文件中每个词的标点状态的权重,根据每个词的标点状态的权重确定所述待处理文件的各种标点状态的第一综合权重。
在根据所述所有特征单元N2确定所述待处理语音文件的各种标点状态的第二综合权重时,从所述语言模型中获取所述所有特征单元N2中的每个特征单元与自身各种标点状态的权重的对应关系,根据获取的所述对应关系确定所述待处理文件中每个词的标点状态的权重,根据每个词的标点状态的权重确定所述待处理文件的各种标点状态的第二综合权重。
步骤104,对所述待处理语音文件的各种标点状态的第一综合权重和第二综合权重进行加权处理,得到第三综合权重,根据所述第三综合权重为所述待处理语音文件添加标点。
由图1所示方法可见,申请人既注意到了待处理语音文件中的静音间隔对待处理语音文件中词语的语义特征以及特征单元的影响,也注意到了这种影响也不是绝对的,在某些时候,一些静音间隔只是说话人语速较慢或者在说话时思考或犹豫造成的,因此,图1所示的实施例中,一方面将待处理语音文件作为整体,来识别其中包含的词语的语义特征,进而确定待处理语音文件中出现的所有特征单元N1,根据所述所有特征单元N1利用所述语言模型确定待处理语音文件的各种标点状态的第一综合权重,另一方面,在语义特征的确定以及特征单元的提取过程中,还通过静音检测将待处理语音文件分为一个以上的待处理语段,从而考虑了待处理语音文件的内部结构对语义特征以及特征单元的影响,得到待处理语音文件中出现的所有特征单元N2,根据所述所有特征单元N2利用基于分词和词语的语义特征得到的语言模型确定待处理语音文件的各种标点状态的第二综合权重,通过对所述第一综合权重和所述第二综合权重进行加权处理得到第三综合权重,最终根据所述第三综合权重对待处理语音文件添加标点,从而既考虑了静音间隔对待处理语音文件中词语的语义特征以及特征单元的影响,同时,也能够避免只是由于某些时候说话人语速较慢或者在说话时思考或犹豫造成的静音间隔对词语语义特征和特征单元提取的影响最终造成错误添加标点,进而,能够提高为待处理语音文件添加标点的准确性。
其中,为了加快处理速度,所述步骤101和所述步骤102可以并行进行。
具体地,在一实施例中,可以将所述待处理语音文件分为两路分别进行特征单元识别,两路特征单元的识别并行进行,其中一路将所述待处理语音文件作为整体输入特征单元识别模块,从而识别出所述所有特征单元N1,另一路先对所述待处理语音文件进行静音检测,根据静音检测结果将所述待处理语音文件分为一个以上的待处理语段,将每个待处理语段逐个输入特征单元识别模块,从而识别每个待处理语段中出现的特征单元,将所有待处理语段中出现的特征单元的并集确定为所述所有特征单元N2。在另一实施例中,也可以根据静音检测将待处理语音文件分为一个以上的待处理语段以后,存储待处理语音文件的结构信息,从而根据所述结构信息能够识别出所述待处理语音文件包含的各个语段,一方面将待处理语音文件作为整体识别所述待处理语音文件包含的所有特征单元N1,另一方面识别待处理语音文件包含的各个语段中出现的特征单元,将所有待处理语段中出现的特征单元的并集确定为所述所有特征单元N2。
本发明实施例中,基于静音检测将待处理语音文件分为一个以上的待处理语段具体可以包括:检测待处理语音文件中的静音时长,将所述静音时长与预设的静音阈值作比较,在所述静音时长大于所述静音阈值时,在所述静音时长对应的静音处从所述待处理语音文件中划分出待处理语段。
优选地,在不同的应用场景中,可以预设不同的静音阈值,根据当前的应用场景确定当前需要采用的静音阈值,从而能够适应不同应用场景下语句标点状态特点的需求。例如,在基于地图应用的场景中为语音输入添加标点时,由于基于地图应用的场景常常会有关于地名的语音输入,有时会出现由于地名较长或者不够熟悉而产生短暂停顿的现象,因此,可以针对基于地图应用的场景设置较长的静音阈值,从而避免在一个完整的地名中间添加标点,提高标点添加的准确性。
本发明实施例还提供了一种标点添加系统,具体请参见图2和图3。
图2是本发明实施例提供的标点添加系统的第一组成示意图。
如图2所示,该系统包括静音检测模块201、识别模块202和标点添加模块203。
静音检测模块201,用于基于静音检测将待处理语音文件分为一个以上的待处理语段。
识别模块202,用于将待处理语音文件作为整体,根据作为整体的所述待处理语音文件中包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N1,根据每个所述待处理语段包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N2。
标点添加模块203,用于利用基于分词和词语的语义特征建立的语言模型,根据所述所有特征单元N1确定所述待处理语音文件的各种标点状态的第一综合权重,根据所述所有特征单元N2确定所述待处理语音文件的各种标点状态的第二综合权重,对所述待处理语音文件的各种标点状态的第一综合权重和第二综合权重进行加权处理,得到第三综合权重,根据所述第三综合权重为所述待处理语音文件添加标点。
图3是本发明实施例提供的标点添加系统的第二组成示意图。
如图3所示,图3所示的标点添加系统在图2所示的标点添加系统的基础上进一步增加了第一输入模块301和第二输入模块302。
第一输入模块301与识别模块202相连,用于将待处理语音文件作为整体,整段地输入到识别模块202中。
识别模块202,将经由第一输入模块301输入的待处理语音文件作为整体识别出所述所有特征单元N1。
第二输入模块302与静音检测模块201相连,用于将所述待处理语音文件输入静音检测模块201,然后静音检测模块201将从所述待处理语音文件中分出的各个待处理语段逐个输入识别模块202。
识别模块202,根据经由第二输入模块302输入的每个待处理语段包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N1。
具体地,识别模块202可以用于根据每个所述待处理语段包含的每个词和每个词的语义特征,识别每个待处理语段中出现的特征单元,将所有待处理语段中出现的特征单元的并集确定为所述所有特征单元N2。
可见,在图3所示系统中,通过第一输入模块301和第二输入模块302将待处理语音文件分为两路输入到识别模块202中,从而,识别模块202将经由第一输入模块301输入的待处理语音文件作为整体识别出所述待处理语音文件中出现的所有特征单元N1,将经由第二输入模块302输入的待处理语音文件按照其包含的各个待处理语段识别出所述待处理语音文件中出现的所有特征单元N2。
在上述图2和/或图3所示的标点添加系统中,识别模块202可以用于同步进行所述所有特征单元N1的识别和所述所有特征单元N2的识别。
在上述图2和/或图3所示的标点添加系统中,静音检测模块301,用于根据当前的应用场景确定静音阈值,检测所述待处理语音文件中的静音时长,在所述静音时长大于所述静音阈值时,在所述静音时长对应的静音处从所述待处理语音文件中划分出待处理语段。
在上述图2和/或图3所示的标点添加系统中,标点添加模块203可以包括综合权重确定单元、综合权重融合单元和标点添加单元。
所述综合权重确定单元,用于利用基于分词和词语的语义特征建立的语言模型,根据所述所有特征单元N1确定所述待处理语音文件的各种标点状态的第一综合权重,根据所述所有特征单元N2确定所述待处理语音文件的各种标点状态的第二综合权重。
所述综合权重融合单元,用于对所述待处理语音文件的各种标点状态的第一综合权重和第二综合权重进行加权处理,得到第三综合权重。
所述标点添加单元,用于根据所述第三综合权重为所述待处理语音文件添加标点。
其中,所述综合权重确定单元,可以用于从所述语言模型中获取所述所有特征单元N1中的每个特征单元与自身各种标点状态的权重的对应关系,根据获取的所述对应关系确定所述待处理文件中每个词的标点状态的权重,根据每个词的标点状态的权重确定所述待处理文件的各种标点状态的第一综合权重;以及,用于从所述语言模型中获取所述所有特征单元N2中的每个特征单元与自身各种标点状态的权重的对应关系,根据获取的所述对应关系确定所述待处理文件中每个词的标点状态的权重,根据每个词的标点状态的权重确定所述待处理文件的各种标点状态的第二综合权重。
在本发明实施例提供的标点添加系统中,还可以对该系统中的各个模块根据实际需要进行重新划分或者细化。
例如,识别模块202可以包括语义识别单元、特征提取单元,所述语义识别单元,用于识别待处理语音文件或待处理语段中的每个词、以及每个词的语义特征,所述特征提取单元,用于根据预先设定的特征模板以及待处理语音文件中包含的每个词和每个词的语义特征,确定待处理语音文件中出现的所有特征单元。
再例如,标点添加模块203可以包括权重获取单元和综合权重计算单元,所述权重获取单元,用于从语言模型中获取待处理语音文件的所有特征单元中的每个特征单元与该个特征单元自身各种标点状态的权重的对应关系,所述综合权重计算单元,用于根据所述权重获取单元获取的所述对应关系,确定待处理语音文件中每个特征单元的标点状态的权重,根据每个特征单元的标点状态的权重计算待处理语音文件的各种标点状态的所述第一综合权重或所述第二综合权重。
在本发明实施例提供的标点添加方法和/或系统中,根据获取的特征单元与自身各种标点状态的权重的对应关系,可以确定待处理语音文件中每个词的标点状态的权重。具体可以采用多种方法确定待处理语音文件中每个词的标点状态的权重,本发明实施例对此不做限定。例如,可以根据所述对应关系采用映射函数的方法确定待处理语音文件中每个词的标点状态的权重,具体地,对于待处理语音文件中当前位置上的词,确定包含该当前位置上的词的所有特征单元,获取包含当前位置上的词的所有特征单元中的每个特征单元与该个特征单元自身的各种标点状态的权重对应关系,按照预设的映射函数,确定所述当前位置上的词的各种标点状态的权重。其中,当同一内容的词处于待处理语音文件中的不同位置时,相当于不同的词,因此其所在的特征单元也会有所不同,进而其标点状态也会有所不同。
待处理语音文件的标点状态包括了该待处理语音文件中的每个词的标点状态,相当于该待处理语音文件中所有词的标点状态的组合,因此可以通过最优路径算法确定待处理语音文件的各种标点状态的综合权重,例如通过维特比(viterbi)算法确定出该待处理语音文件中所有词的标点状态的最佳组合方式,即确定出最优路径,该最佳组合方式的综合权重最高。
本发明实施例所述的基于分词和词语的语义特征建立的语言模型,包括每个特征单元与自身各种标点状态的权重的对应关系,能够根据查询请求提供相应特征单元与自身各种标点状态的权重的对应关系,本发明实施例提供的添加标点的方法和系统对所述语言模型的具体建立方法不做限定。
作为示例性地,下面给出所述基于分词和词语的语义特征建立的语言模型的优选建立方法,其通过对语料库中的语句进行分词,根据词语在语料库中的语义特征以及标点状态的关联关系得到所述语言模型,具体请参见图4。
图4是本发明实施例提供的用于添加标点的语言模型建立方法第一流程图。
如图4所示,该第一流程包括:
步骤401,对语料库中的语句进行分词处理,其中,语料库中的语句预先添加了标点。
步骤402,根据分词处理后的语句中每个词的语义特征,依据预先设定的特征模板,搜索所述语料库中出现的特征单元,根据特征单元中的每个词后面的标点状态,记录所述语料库中每个特征单元的每种标点状态的出现次数。
步骤403,根据每个特征单元的每种标点状态的出现次数,确定每个特征单元的每种标点状态的权重,建立包括每个特征单元与自身各种标点状态的权重的对应关系的语言模型。
在图4所示方法的步骤402中,可以采用方法一,即预先标注所述语料库的语句中每个词的语义特征和标点状态,然后再根据预设的特征模板搜索所述语料库中出现的特征单元,并记录每个特征单元的每种标点状态的出现次数。也可以采用方法二,即在根据预先设定的特征模板搜索语料库中出现的特征单元时,实时地识别语句中每个词的语义特征以及每个词后面的标点状态。下面以采用所述方法一实现步骤402为例,对图4所示方法进行进一步的详细介绍,具体请参见图5。
图5是本发明提供的用于添加标点的语言模型建立方法第二流程图。
如图5所示,该方法包括:
步骤501,对语料库中的语句进行分词处理,其中,语料库中的语句预先添加了标点。
步骤502,根据分词处理后的语句中的每个词在所述语句中的语义信息,为所述每个词标注语义特征,根据在所述语句中所述每个词后面的标点状态信息,为所述每个词标注标点状态。
步骤503,根据每个词的所述语义特征,依据预先设定的特征模版生成特征单元,所述特征模板包括获取的词的数量、获取词的语义特征,所述特征单元包括词和词的语义特征。
步骤504,从所述语料库的语句中搜索每个特征单元,记录每个特征单元出现时该特征单元的标点状态,记录该特征单元的每种标点状态的出现次数,其中,特征单元的标点状态包括该特征单元中每个词的标点状态。
步骤505,根据每个特征单元的每种标点状态的出现次数,确定每个特征单元的每种标点状态的权重,建立包括每个特征单元与自身各种标点状态的权重的对应关系的语言模型。
为了提高建立的语言模型的质量,所述语料库中的语句中预先添加的标点的正确率较高,最好都是正确的。
图5所示流程中,步骤503和步骤504可以在一个过程中实现,例如根据预先设定的特征模板从语料库的语句中提取特征单元,如果提取出的特征单元之前没有出现过,则相当于生成一个新的特征单元、且从语料库的语句中搜索到该新的特征单元的次数为1次。
在根据语句中的词的语义特征提取特征单元的基础上,还可以进一步利用词的位置信息,所述词的位置信息是词与当前基准位置的相对位置信息,进而提取的特征单元除了包括词、词的语义特征以外,还包括词与当前基准位置的相对位置信息。
具体地,预先设定的特征模板包括获取的词的数量、获取词的语义特征、获取的词与当前基准位置的相对位置关系需要满足的预定要求,则依据预先设定的特征模板从语句中提取特征单元具体可以包括:
分别以分词处理后的语句中的每个词所处的位置作为当前基准位置,确定出在所述语句中的位置与当前基准位置的相对位置关系满足所述特征模板要求的词,根据所述相对位置关系满足特征模板要求的词的语义特征和相对位置关系信息生成特征单元,所述特征单元还包括词与当前基准位置的相对位置关系。
通过包含相对位置关系要求的特征模板,可以确定词与词之间的关联关系,进而根据所述特征模板提取的特征单元包含了词与词之间的关联关系,所述关联关系通常与标点状态存在联系,因此根据所述特征单元与每种标点状态的权重关系建立的语言模型能够更加准确地反映语句所蕴含的信息与标点状态的关系,进而利用所述语言模型能够提高添加标点的准确性。
根据预先设定的特征模板所要求获取的词的个数,预先设定的特征模板可以包括独词模板和/或多词模板。
其中,所述独词模板包括获取与当前基准位置的相对位置关系满足预定要求的单个词、以及所述单个词的语义特征。其中,独词模板涉及的所述相对位置关系可以就是获取当前基准位置上的词,也可以是获取当前基准位置的前一位置、或后一位置等其他位置上的词。
依据独词模板从语句中提取特征单元时,分别以所述语句中的每个词所处的位置作为所述当前基准位置,根据所述独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词,根据该单个词的语义特征确定待处理语句中出现的独词特征单元,所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系。
所述多词模板包括获取分别与当前基准位置的相对位置关系满足预定要求的多个词、以及所述多个词中每个词的语义特征。
依据多词模板从语句中提取特征单元时,分别以所述语句中的每个词所处的位置作为所述当前基准位置,根据所述多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板的相对位置关系要求的多个词,根据该多个词中每个词的语义特征确定待处理语句中出现的多词特征单元,所述多词特征单元包括所述多个词、所述多个词中每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。
其中,通过对独词模板中与当前基准位置的相对位置关系的要求进行修改,可以获得不同种类的独词模板,例如用于获取当前基准位置的词及其语义特征的独词模板(可以记为模板T00)、用于获取当前基准位置的前一位置上的词及其语义特征的独词模板(可以记为模板T01)、用于获取当前基准位置的后一位置上的词及其语义特征的独词模板(可以记为模板T02)。
通过对多词模板中与当前基准位置的相对位置关系的要求进行修改,也可以获得不同种类的多词模板,例如,用于获取当前基准位置的前一位置、当前基准位置、当前基准位置的后一位置上的词及其语义特征的多词模板(可以记为模板T05),用于获取当前基准位置的前两个位置以及当前基准位置上的词及其语义特征的多词模板(可以记为模板T06)。
一个多词模板要求获取的词的个数越多,词之间的关联性越强,进而利用建立的语言模型添加标点的准确性越高,模板的种类越多,对语句中出现的语义特征与标点状态的关联关系的考虑越全面,进而利用建立的语言模型添加标点的准确性越高。当然,模板的种类越多、一个多词模板要求获取的词的个数越多,建立语言模型所需要的计算量越大,所述语言模型的规模越大,利用建立的语言模型添加标点的信息处理量也越大。
在步骤505中,根据每个特征单元的每种标点状态的出现次数,确定每个特征单元的每种标点状态的权重时,为了便于操作,可以为每个特征单元赋予标识(ID),建立的语言模型包括特征单元ID、该ID对应的特征单元、以及所述特征单元的各种标点状态的权重信息。
本发明中,词的语义特征可以包括但不限于该词在当前语句中的词性和/或在当前语句中充当的句子成分。
下面举一个具体的例子,对图5所示语言模型建立方法进行示例性介绍。
在该例子中,假设语料库中包括如下的语句:今天天气不错,我们下午去打球,然后去吃饭。
在利用图5所示方法建立语言模型时,需要执行如下步骤:
步骤1,对所述语句进行分词。
对语句“今天天气不错,我们下午去打球,然后去吃饭。”进行分词处理后得到的词包括:今天、天气、不错、我们、下午、去、打球、然后、去、吃饭。
步骤2,对分词处理后的语句中的每个词进行语义特征标注和标点状态标注。
作为示例性地,所述语义特征包括词性和句子成分,则对所述语句进行标注后的结果参见表一:
表一
步骤3,根据步骤2的标注结果,依据预先设定的特征模板,从所述语句中提取特征单元,为提取的特征单元分配ID,并记录特征单元的每种标点状态的出现次数,其中,所述特征单元包括词和词的语义特征。
本步骤中,假设预先设定的特征模板包括独词模板T00、T01、T02和多词模板T05,独词模板T00用于获取当前基准位置的词及其语义特征,独词模板T01用于获取当前基准位置的前一位置上的词及其语义特征,独词模板T02用于获取当前基准位置的后一位置上的词及其语义特征,多词模板T05用于获取当前基准位置的前一位置、当前基准位置、当前基准位置的后一位置上的词及其语义特征。
以步骤2标注后的语句中的每个词所在的位置为当前位置,根据独词模板T00、T01、T02和多词模板T05提取特征单元。
比如,当以“天气”所在的位置为当前基准位置时,根据模板T00得到的特征单元包括“今天”、以及“今天”的语义特征(即名词和状语),根据模板T01得到的特征单元包括“天气”、以及“天气”的语义特征(即名词和主语),根据模板T02得到的特征单元包括“不错”、以及“不错”的语义特征(即形容词和谓语),根据模板T05得到的特征单元包括“今天”、以及“今天”的语义特征(即名词和状语)、“天气”、以及“天气”的语义特征(即名词和主语)“不错”、以及“不错”的语义特征(即形容词和谓语)。
其中,特征单元中的每个词与当前基准位置的相对位置信息,可以以显式方式存储在特征单元中,也可以根据每种模板对应的ID范围、通过为特征单元赋予相应范围内的ID等隐式方式进行存储。
当根据特征模板提取特征单元时,如果特征模板要求的某个相对位置上没有词,则可以采用约定方式表示无词,比如采用约定字符或字符串表示无词。例如所述语句中的“今天”前面没有词,当以“今天”所在的位置为当前基准位置,根据模板T00或T05提取特征单元时,需要采用约定的方式表示“今天”的前一位置无词。
提取出特征单元以后,通过为特征单元赋予不同的ID,来区分包括不同内容的特征单元。所述ID的赋予方式有多种,例如可以根据特征单元包含的内容生成的哈希值作为所述特征单元的ID。
对于每个特征单元,当语料库中的语句中每出现一次所述特征单元时,根据本次出现的特征单元中每个词的标点状态,记录该特征单元的标点状态的出现次数。其中,特征单元的标点状态包括特征单元中每个词的标点状态,换言之,当特征单元包含多个词时,特征单元的标点状态是由所述多个词的标点状态组合而成的,其中任意一个词的标点状态发生改变,则所述包含多个词的特征单元的标点状态也发送了改变。比如,一个特征单元包括三个词,三个词的标点状态分别为“无”、“无”和“逗号”时,该特征单元的标点状态时“无”、“无”和“逗号”的组合,当第三个词的标点状态变为“无”时,则该特征单元的标点状态变为另一种标点状态,即变为“无”、“无”和“无”。
通过步骤2和3可以看出本发明采用分词处理而非分字处理的好处:只有词语才具有明确的语义特征,单个字一般无法具备明确的语义特征,因此分词处理也为步骤2做了准备工作;另外,由于在特征提取的过程中,常常会用到语句中包含的上下文信息,词语的上下文仍然是词语,通过词语之间的关联关系能够更明确地体现出语义特征的联系,相互关联的语义特征与标点状态的关联关系通常也较强,因此,基于分词以及分词后的上下文关联关系提取的特征单元,能够较为准确地提取出语句中蕴含的语义信息与标点状态的关联关系。
步骤4,根据步骤3提取的特征单元,以及特征单元的每种标点状态的出现次数,确定每个特征单元的每种标点状态的权重,建立包括每个特征单元与自身各种标点状态的权重的对应关系的语言模型。
其中,具体可以通过迭代优化算法确定每个特征单元的每种标点状态的权重。
其中,可以采用的迭代优化算法有很多,例如牛顿迭代算法,BFGS(Large-scaleBound-constrainedOptimization)迭代算法,L-BFGS(SoftwareforLarge-scaleBound-constrainedOptimization)迭代算法,OWL-QN(Orthant-WiseLimited-memoryQuasi-Newton)迭代算法等。优选地,可以采用L-BFGS迭代算法,因为L-BFGS迭代算法具有迭代速度快的优点,能够提高语言模型的建立速度。
通过上述步骤1-步骤4,最终建立的语言模型包括每个特征单元与该特征单元自身的各种标点状态的权重的对应关系,其中,每个特征单元还可以具有一个区别于其他特征单元的ID,通过所述ID能够检索到所述特征单元与自身的各种标点状态的权重的对应关系,从而,在从语言模型中获取特征单元与自身各种标点状态的权重的对应关系时,可以向所述语言模型发送携带有特征单元的标识(ID)的查询请求,根据所述特征单元的ID从所述语言模型中获取相应特征单元与自身各种标点状态的权重的对应关系,其中,所述语言模型中存储有特征单元的ID、该ID对应的特征单元、以及该特征单元与自身各种标点状态的权重的对应关系。
基于包括所述独词特征单元和/或所述多词特定单元的语言模型添加标点时,在本发明实施例提供的添加标点的方法中,分别以每个词所处的位置作为所述当前基准位置,根据独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词,根据该单个词的语义特征识别独词特征单元,其中,所述独词特征模板包括获取与当前基准位置的相对位置关系满足预定要求的单个词、以及所述单个词的语义特征,所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系;和/或,分别以每个词所处的位置作为所述当前基准位置,根据多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板要求的多个词,根据该多个词中每个词的语义特征识别多词特征单元,其中,所述多词特征模板包括获取与当前基准位置的相对位置关系满足预定要求的多个词、以及所述多个词中每个词的语义特征,所述多词特征单元包括所述多个词、所述多个词中每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。
基于包括所述独词特征单元和/或所述多词特定单元的语言模型添加标点时,在本发明实施例提供的添加标点的系统中,识别模块202,可以用于分别以每个词所处的位置作为所述当前基准位置,根据独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词,根据该单个词的语义特征识别独词特征单元,其中,所述独词特征模板包括获取与当前基准位置的相对位置关系满足预定要求的单个词、以及所述单个词的语义特征,所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系;和/或,识别模块202,可以用于分别以每个词所处的位置作为所述当前基准位置,根据多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板要求的多个词,根据该多个词中每个词的语义特征识别多词特征单元,其中,所述多词特征模板包括获取与当前基准位置的相对位置关系满足预定要求的多个词、以及所述多个词中每个词的语义特征,所述多词特征单元包括所述多个词、所述多个词中每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。
作为示例性地,下面提供一个具体的实现流程,用于进一步详细而直观地介绍基于本发明实施例提供的语言模型采用本发明实施例提供的标点添加方法和系统为待处理语音文件添加标点的流程,具体请参见图6。
图6是基于本发明实施例提供的语言模型采用本发明实施例提供的标点添加方法和系统为待处理语音文件添加标点的流程图。
如图6所示,该流程包括如下的子流程:分别为语言模型建立流程、第一综合权重确定流程、第二综合权重确定流程、权重融合以及标点添加流程。
其中,语言模型建立流程是预先的处理流程,一旦语言模型建立以后,可以直接利用建立的语言模型添加标点。优选地,所述第一综合权重确定流程和所述第二综合权重确定流程可以并行进行,从而能够提高信息处理速度。在得到第一综合权重和第二综合权重以后,再执行权重融合以及标点添加流程。
具体地,在语言模型建立流程中,首先对语料库进行分词和分句处理,然后标记语料库中每个词的语义特征,依据预设的特征模板根据语料库的分词结果以及每个词的语义特征进行特征提取,从而提取出特征单元,并标记每个特征单元的每种标点状态的出现次数,为每个特征单元设置ID,通过优化迭代得到每个特征单元与自身各种标点状态的权重的对应关系,从而得到用于添加标点的语言模型,其中,在所述语言模型中存储有每个特征单元与自身各种标点状态的权重的对应关系。
在第一综合权重确定流程中,将待处理语音文件作为一个整体整段输入到语音引擎中,所述语音引擎根据声学模型、词典以及用于识别语句的语义特征的语言模型来识别出待处理语音文件中所包含的词,以及每个词的语义特征。根据所述语音引擎的识别结果,进行特征单元识别,从而识别出待处理语音文件中包含的所有特征单元N1,根据所述所有特征单元N1中每个特征单元的ID从在所述语言模型建立流程中建立的语言模型中获取每个特征单元的各种标点状态的权重,最后根据维特比算法计算出最优路径,从而得到待处理语音文件的各种标点状态的第一综合权重。
在第二综合权重确定流程中,将待处理语音文件作为一个整体整段输入到静音检测模块中,静音检测模块根据静音检测结果从待处理语音文件中划分出待处理语段,将待处理语段逐个送入语音引擎中,所述语音识别引擎根据声学模型、词典以及用于识别语句的语义特征的语言模型来识别出每个待处理语段中所包含的词,以及每个词的语义特征,根据每个待处理语段中所包含的词,以及每个词的语义特征进行特征单元识别,从而识别出每个待处理语段中所包含的特征单元,将待处理语音文件包含的所有待处理语段的特征单元的并集确定为待处理语音文件中包含的所有特征单元N2,根据所述所有特征单元N2中每个特征单元的ID从在所述语言模型建立流程中建立的语言模型中获取每个特征单元的各种标点状态的权重,最后根据维特比算法计算出最优路径,从而得到待处理语音文件的各种标点状态的第二综合权重。
在得到第一综合权重和第二综合权重以后,在权重融合以及标点添加流程中,首先对待处理语音文件的各种标点状态的第一综合权重和第二综合权重进行加权处理,比如,假设第一综合权重为R1,第二综合权重为R2,则融合处理后得到的第三综合权重R3=a*R1+(1-a)*R2,其中,加权系数a的取值范围为0<a<1。然后再根据融合处理后得到的第三综合权重R3,选出取值最大的第三综合权重R3对应的标点状态,根据该标点状态为待处理语音文件添加标点。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (20)

1.一种添加标点的方法,其特征在于,该方法包括:
将待处理语音文件作为整体,根据作为整体的所述待处理语音文件中包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N1;
基于静音检测将所述待处理语音文件分为一个以上的待处理语段,根据每个待处理语段包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N2;
利用基于分词和词语的语义特征建立的语言模型,根据所述所有特征单元N1确定所述待处理语音文件的各种标点状态的第一综合权重,根据所述所有特征单元N2确定所述待处理语音文件的各种标点状态的第二综合权重;
对所述待处理语音文件的各种标点状态的第一综合权重和第二综合权重进行加权处理,得到第三综合权重,根据所述第三综合权重为所述待处理语音文件添加标点。
2.根据权利要求1所述的方法,其特征在于,
同步进行所述所有特征单元N1的识别和所述所有特征单元N2的识别。
3.根据权利要求1或2所述的方法,其特征在于,
将所述待处理语音文件分为两路分别进行特征单元识别,其中一路将所述待处理语音文件作为整体识别出所述所有特征单元N1,另一路先对所述待处理语音文件进行静音检测,根据静音检测结果将所述待处理语音文件分为一个以上的待处理语段,然后再根据每个待处理语段包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N2。
4.根据权利要求1所述的方法,其特征在于,根据每个待处理语段包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N2包括:
识别每个待处理语段中出现的特征单元,将所有待处理语段中出现的特征单元的并集确定为所述所有特征单元N2。
5.根据权利要求1所述的方法,其特征在于,所述静音检测包括:
根据当前的应用场景确定静音阈值,检测所述待处理语音文件中的静音时长,在所述静音时长大于所述静音阈值时,在所述静音时长对应的静音处从所述待处理语音文件中划分出待处理语段。
6.根据权利要求1所述的方法,其特征在于,所述语言模型通过如下步骤建立:
对语料库中的语句进行分词处理,其中,语料库中的语句预先添加了标点;
根据分词处理后的语句中每个词的语义特征,依据预先设定的特征模板,搜索所述语料库中出现的特征单元,根据特征单元中的每个词后面的标点状态,记录所述语料库中每个特征单元的每种标点状态的出现次数;
根据每个特征单元的每种标点状态的出现次数,确定每个特征单元的每种标点状态的权重,建立包括每个特征单元与自身各种标点状态的权重的对应关系的语言模型。
7.根据权利要求6所述的方法,其特征在于,所述语料库中出现的特征单元包括独词特征单元和/或多词特征单元,所述独词特征单元依据独词特征模板得到,所述多词特征单元依据多词特征模板得到;
其中,所述独词特征模板包括获取与当前基准位置的相对位置关系满足预定要求的单个词、以及所述单个词的语义特征,依据独词特征模板得到独词特征单元包括:
分别以每个词所处的位置作为所述当前基准位置,根据所述独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词,根据该单个词的语义特征识别独词特征单元,所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系;
所述多词特征模板包括获取与当前基准位置的相对位置关系满足预定要求的多个词、以及所述多个词中每个词的语义特征,依据多词特征模板得到多词特征单元包括:
分别以每个词所处的位置作为所述当前基准位置,根据所述多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板要求的多个词,根据该多个词中每个词的语义特征识别多词特征单元,所述多词特征单元包括所述多个词、所述多个词中每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。
8.根据权利要求1所述的方法,其特征在于,所述所有特征单元N1和所述所有特征单元N2分别包括独词特征单元和/或多词特征单元,所述独词特征单元依据独词特征模板得到,所述多词特征单元依据多词特征模板得到;
其中,所述独词特征模板包括获取与当前基准位置的相对位置关系满足预定要求的单个词、以及所述单个词的语义特征,依据独词特征模板得到独词特征单元包括:
分别以每个词所处的位置作为所述当前基准位置,根据所述独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词,根据该单个词的语义特征识别独词特征单元,所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系;
所述多词特征模板包括获取与当前基准位置的相对位置关系满足预定要求的多个词、以及所述多个词中每个词的语义特征,依据多词特征模板得到多词特征单元包括:
分别以每个词所处的位置作为所述当前基准位置,根据所述多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板要求的多个词,根据该多个词中每个词的语义特征识别多词特征单元,所述多词特征单元包括所述多个词、所述多个词中每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。
9.根据权利要求1所述的方法,其特征在于,根据所述所有特征单元N1确定所述待处理语音文件的各种标点状态的第一综合权重包括:
从所述语言模型中获取所述所有特征单元N1中的每个特征单元与自身各种标点状态的权重的对应关系,根据获取的所述对应关系确定所述待处理文件中每个词的标点状态的权重,根据每个词的标点状态的权重确定所述待处理文件的各种标点状态的第一综合权重;
和/或,根据所述所有特征单元N2确定所述待处理语音文件的各种标点状态的第二综合权重包括:
从所述语言模型中获取所述所有特征单元N2中的每个特征单元与自身各种标点状态的权重的对应关系,根据获取的所述对应关系确定所述待处理文件中每个词的标点状态的权重,根据每个词的标点状态的权重确定所述待处理文件的各种标点状态的第二综合权重。
10.根据权利要求1所述的方法,其特征在于,所述语义特征包括词语词性和/或句子成分。
11.一种添加标点的系统,其特征在于,该系统包括静音检测模块、识别模块和标点添加模块;
所述静音检测模块,用于基于静音检测将待处理语音文件分为一个以上的待处理语段;
所述识别模块,用于将待处理语音文件作为整体,根据作为整体的所述待处理语音文件中包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N1,根据每个所述待处理语段包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N2;
所述标点添加模块,用于利用基于分词和词语的语义特征建立的语言模型,根据所述所有特征单元N1确定所述待处理语音文件的各种标点状态的第一综合权重,根据所述所有特征单元N2确定所述待处理语音文件的各种标点状态的第二综合权重,对所述待处理语音文件的各种标点状态的第一综合权重和第二综合权重进行加权处理,得到第三综合权重,根据所述第三综合权重为所述待处理语音文件添加标点。
12.根据权利要求11所述的系统,其特征在于,
所述识别模块,用于同步进行所述所有特征单元N1的识别和所述所有特征单元N2的识别。
13.根据权利要求11或12所述的系统,其特征在于,该系统还包括第一输入模块和第二输入模块,
所述第一输入模块与所述识别模块相连,用于将所述待处理语音文件作为整体输入所述识别模块;
所述识别模块将经由所述第一输入模块输入的待处理语音文件作为整体识别出所述所有特征单元N1;
所述第二输入模块与所述静音检测模块相连,用于将所述待处理语音文件输入所述静音检测模块,所述静音检测模块将从所述待处理语音文件中分出的各个待处理语段逐个输入所述识别模块;
所述识别模块根据经由所述第二输入模块输入的每个待处理语段包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元N1。
14.根据权利要求11所述的系统,其特征在于,
所述识别模块,用于根据每个所述待处理语段包含的每个词和每个词的语义特征,识别每个待处理语段中出现的特征单元,将所有待处理语段中出现的特征单元的并集确定为所述所有特征单元N2。
15.根据权利要求11所述的系统,其特征在于,
所述静音检测模块,用于根据当前的应用场景确定静音阈值,检测所述待处理语音文件中的静音时长,在所述静音时长大于所述静音阈值时,在所述静音时长对应的静音处从所述待处理语音文件中划分出待处理语段。
16.根据权利要求11所述的系统,其特征在于,所述语言模型为通过如下步骤建立的模型:
对语料库中的语句进行分词处理,其中,语料库中的语句预先添加了标点;
根据分词处理后的语句中每个词的语义特征,依据预先设定的特征模板,搜索所述语料库中出现的特征单元,根据特征单元中的每个词后面的标点状态,记录所述语料库中每个特征单元的每种标点状态的出现次数;
根据每个特征单元的每种标点状态的出现次数,确定每个特征单元的每种标点状态的权重,建立包括每个特征单元与自身各种标点状态的权重的对应关系的语言模型。
17.根据权利要求11所述的系统,其特征在于,所述所有特征单元N1和所述所有特征单元N2分别包括独词特征单元和/或多词特征单元;
所述识别模块,用于分别以每个词所处的位置作为所述当前基准位置,根据独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词,根据该单个词的语义特征识别独词特征单元,其中,所述独词特征模板包括获取与当前基准位置的相对位置关系满足预定要求的单个词、以及所述单个词的语义特征,所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系;
和/或,所述识别模块,用于分别以每个词所处的位置作为所述当前基准位置,根据多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板要求的多个词,根据该多个词中每个词的语义特征识别多词特征单元,其中,所述多词特征模板包括获取与当前基准位置的相对位置关系满足预定要求的多个词、以及所述多个词中每个词的语义特征,所述多词特征单元包括所述多个词、所述多个词中每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。
18.根据权利要求16所述的系统,其特征在于,所述语料库中出现的特征单元包括独词特征单元和/或多词特征单元,所述独词特征单元依据独词特征模板得到,所述多词特征单元依据多词特征模板得到;
其中,所述独词特征模板包括获取与当前基准位置的相对位置关系满足预定要求的单个词、以及所述单个词的语义特征,所述独词特征单元可通过如下步骤依据独词特征模板得到:
分别以每个词所处的位置作为所述当前基准位置,根据所述独词特征模板确定与当前基准位置的相对位置关系满足所述独词特征模板要求的单个词,根据该单个词的语义特征识别独词特征单元,所述独词特征单元包括所述单个词、所述单个词的语义特征以及所述单个词的位置与当前基准位置的相对位置关系;
所述多词特征模板包括获取与当前基准位置的相对位置关系满足预定要求的多个词、以及所述多个词中每个词的语义特征,所述多词特征单元可通过如下步骤依据多词特征模板得到:
分别以每个词所处的位置作为所述当前基准位置,根据所述多词特征模板确定与当前基准位置的相对位置关系满足所述多词特征模板要求的多个词,根据该多个词中每个词的语义特征识别多词特征单元,所述多词特征单元包括所述多个词、所述多个词中每个词的语义特征、以及每个词的位置与所述当前基准位置的相对位置关系。
19.根据权利要求11所述的系统,其特征在于,所述标点添加模块包括综合权重确定单元、综合权重融合单元和标点添加单元;
所述综合权重确定单元,用于利用基于分词和词语的语义特征建立的语言模型,根据所述所有特征单元N1确定所述待处理语音文件的各种标点状态的第一综合权重,根据所述所有特征单元N2确定所述待处理语音文件的各种标点状态的第二综合权重;
所述综合权重融合单元,用于对所述待处理语音文件的各种标点状态的第一综合权重和第二综合权重进行加权处理,得到第三综合权重;
所述标点添加单元,用于根据所述第三综合权重为所述待处理语音文件添加标点。
20.根据权利要求19所述的系统,其特征在于,
所述综合权重确定单元,用于从所述语言模型中获取所述所有特征单元N1中的每个特征单元与自身各种标点状态的权重的对应关系,根据获取的所述对应关系确定所述待处理文件中每个词的标点状态的权重,根据每个词的标点状态的权重确定所述待处理文件的各种标点状态的第一综合权重;以及,用于从所述语言模型中获取所述所有特征单元N2中的每个特征单元与自身各种标点状态的权重的对应关系,根据获取的所述对应关系确定所述待处理文件中每个词的标点状态的权重,根据每个词的标点状态的权重确定所述待处理文件的各种标点状态的第二综合权重。
CN201310198454.XA 2013-05-24 2013-05-24 一种添加标点的方法和系统 Active CN104143331B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310198454.XA CN104143331B (zh) 2013-05-24 2013-05-24 一种添加标点的方法和系统
PCT/CN2013/085347 WO2014187069A1 (en) 2013-05-24 2013-10-16 Systems and methods for adding punctuations
US14/160,808 US9779728B2 (en) 2013-05-24 2014-01-22 Systems and methods for adding punctuations by detecting silences in a voice using plurality of aggregate weights which obey a linear relationship

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310198454.XA CN104143331B (zh) 2013-05-24 2013-05-24 一种添加标点的方法和系统

Publications (2)

Publication Number Publication Date
CN104143331A CN104143331A (zh) 2014-11-12
CN104143331B true CN104143331B (zh) 2015-12-09

Family

ID=51852489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310198454.XA Active CN104143331B (zh) 2013-05-24 2013-05-24 一种添加标点的方法和系统

Country Status (3)

Country Link
US (1) US9779728B2 (zh)
CN (1) CN104143331B (zh)
WO (1) WO2014187069A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679033B (zh) * 2017-09-11 2021-12-14 百度在线网络技术(北京)有限公司 文本断句位置识别方法和装置
CN107767870B (zh) * 2017-09-29 2021-03-23 百度在线网络技术(北京)有限公司 标点符号的添加方法、装置和计算机设备
CN109979435B (zh) * 2017-12-28 2021-10-22 北京搜狗科技发展有限公司 数据处理方法和装置、用于数据处理的装置
CN109410949B (zh) * 2018-10-11 2021-11-16 厦门大学 基于加权有限状态转换器的文本内容添加标点方法
CN111160003B (zh) * 2018-11-07 2023-12-08 北京猎户星空科技有限公司 一种断句方法及装置
CN110418208B (zh) * 2018-11-14 2021-07-27 腾讯科技(深圳)有限公司 一种基于人工智能的字幕确定方法和装置
CN110032732A (zh) * 2019-03-12 2019-07-19 平安科技(深圳)有限公司 一种文本标点预测方法、装置、计算机设备及存储介质
CN110807325B (zh) * 2019-10-18 2023-05-26 腾讯科技(深圳)有限公司 谓词识别方法、装置及存储介质
CN111241810B (zh) * 2020-01-16 2023-08-01 百度在线网络技术(北京)有限公司 标点预测方法及装置
CN111986654B (zh) * 2020-08-04 2024-01-19 云知声智能科技股份有限公司 降低语音识别系统延时的方法及系统
FI20225351A1 (en) * 2022-04-27 2023-10-28 Elisa Oyj Computer-implemented procedure for punctuating text from audio input

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6067514A (en) * 1998-06-23 2000-05-23 International Business Machines Corporation Method for automatically punctuating a speech utterance in a continuous speech recognition system
US6778958B1 (en) * 1999-08-30 2004-08-17 International Business Machines Corporation Symbol insertion apparatus and method
CN102231278A (zh) * 2011-06-10 2011-11-02 安徽科大讯飞信息科技股份有限公司 实现语音识别中自动添加标点符号的方法及系统

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5146405A (en) 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
JPH05314168A (ja) 1992-05-07 1993-11-26 Nippon Telegr & Teleph Corp <Ntt> 記号列生起確率計算方式
JPH0877155A (ja) 1994-07-07 1996-03-22 Sanyo Electric Co Ltd 情報処理装置及び情報処理方法
US6173261B1 (en) 1998-09-30 2001-01-09 At&T Corp Grammar fragment acquisition using syntactic and semantic clustering
CN1159662C (zh) 1998-05-13 2004-07-28 国际商业机器公司 连续语音识别中的标点符号自动生成装置及方法
US6321197B1 (en) 1999-01-22 2001-11-20 Motorola, Inc. Communication device and method for endpointing speech utterances
US6175820B1 (en) 1999-01-28 2001-01-16 International Business Machines Corporation Capture and application of sender voice dynamics to enhance communication in a speech-to-text environment
JP2001134289A (ja) 1999-11-08 2001-05-18 Just Syst Corp 音声認識システム、方法及び記録媒体
JP3782943B2 (ja) * 2001-02-20 2006-06-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
AU2003280474A1 (en) 2002-06-28 2004-01-19 Conceptual Speech, Llc Multi-phoneme streamer and knowledge representation speech recognition system and method
JP4376490B2 (ja) 2002-07-19 2009-12-02 富士通マイクロエレクトロニクス株式会社 半導体装置の製造方法
EP1422692A3 (en) * 2002-11-22 2004-07-14 ScanSoft, Inc. Automatic insertion of non-verbalized punctuation in speech recognition
US7139688B2 (en) 2003-06-20 2006-11-21 International Business Machines Corporation Method and apparatus for classifying unmarked string substructures using Markov Models
CN1238834C (zh) 2004-03-09 2006-01-25 北京沃克斯科技有限责任公司 一种口语识别理解的识别分析方法
US7756871B2 (en) 2004-10-13 2010-07-13 Hewlett-Packard Development Company, L.P. Article extraction
CN1945693B (zh) 2005-10-09 2010-10-13 株式会社东芝 训练韵律统计模型、韵律切分和语音合成的方法及装置
US8260619B1 (en) 2008-08-22 2012-09-04 Convergys Cmg Utah, Inc. Method and system for creating natural language understanding grammars
JP5141695B2 (ja) 2008-02-13 2013-02-13 日本電気株式会社 記号挿入装置および記号挿入方法
US8892435B2 (en) 2008-04-03 2014-11-18 Nec Corporation Text data processing apparatus, text data processing method, and recording medium storing text data processing program
US20090281791A1 (en) 2008-05-09 2009-11-12 Microsoft Corporation Unified tagging of tokens for text normalization
EP2311030A1 (en) 2008-07-03 2011-04-20 Mobiter Dicta Oy Method and device for converting speech
CA2680304C (en) 2008-09-25 2017-08-22 Multimodal Technologies, Inc. Decoding-time prediction of non-verbalized tokens
US8145484B2 (en) 2008-11-11 2012-03-27 Microsoft Corporation Speech processing with predictive language modeling
US8566088B2 (en) * 2008-11-12 2013-10-22 Scti Holdings, Inc. System and method for automatic speech to text conversion
US8719004B2 (en) 2009-03-19 2014-05-06 Ditech Networks, Inc. Systems and methods for punctuating voicemail transcriptions
EP2387033A1 (en) 2010-05-11 2011-11-16 Thomson Licensing Method and apparatus for detecting which one of symbols of watermark data is embedded in a received signal
US9236047B2 (en) 2010-05-21 2016-01-12 Microsoft Technology Licensing, Llc Voice stream augmented note taking
US8612204B1 (en) 2011-03-30 2013-12-17 Google Inc. Techniques for reordering words of sentences for improved translation between languages
US9811517B2 (en) 2013-01-29 2017-11-07 Tencent Technology (Shenzhen) Company Limited Method and system of adding punctuation and establishing language model using a punctuation weighting applied to chinese speech recognized text
CN104142915B (zh) 2013-05-24 2016-02-24 腾讯科技(深圳)有限公司 一种添加标点的方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6067514A (en) * 1998-06-23 2000-05-23 International Business Machines Corporation Method for automatically punctuating a speech utterance in a continuous speech recognition system
US6778958B1 (en) * 1999-08-30 2004-08-17 International Business Machines Corporation Symbol insertion apparatus and method
CN102231278A (zh) * 2011-06-10 2011-11-02 安徽科大讯飞信息科技股份有限公司 实现语音识别中自动添加标点符号的方法及系统

Also Published As

Publication number Publication date
US20140350939A1 (en) 2014-11-27
WO2014187069A1 (en) 2014-11-27
US9779728B2 (en) 2017-10-03
CN104143331A (zh) 2014-11-12

Similar Documents

Publication Publication Date Title
CN104142915B (zh) 一种添加标点的方法和系统
CN104143331B (zh) 一种添加标点的方法和系统
CN103971684B (zh) 一种添加标点的方法、系统及其语言模型建立方法、装置
EP3153978B1 (en) Address search method and device
CN103970765B (zh) 一种改错模型训练方法、装置和文本改错方法、装置
CN111046656B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN107204184A (zh) 语音识别方法及系统
CN107526800A (zh) 信息推荐的装置、方法及计算机可读存储介质
CN108763510A (zh) 意图识别方法、装置、设备及存储介质
CN106202153A (zh) 一种es搜索引擎的拼写纠错方法及系统
JP2020030408A (ja) オーディオにおける重要語句を認識するための方法、装置、機器及び媒体
CN102479191A (zh) 提供多粒度分词结果的方法及其装置
CN105068997B (zh) 平行语料的构建方法及装置
CN113326702B (zh) 语义识别方法、装置、电子设备及存储介质
CN103440865B (zh) 语音识别的后处理方法
CN111508497B (zh) 语音识别方法、装置、电子设备及存储介质
CN112613293A (zh) 摘要生成方法、装置、电子设备及存储介质
WO2012004955A1 (ja) テキスト補正方法及び認識方法
CN111428011A (zh) 词语的推荐方法、装置、设备及存储介质
CN110020429B (zh) 语义识别方法及设备
CN108268443B (zh) 确定话题点转移以及获取回复文本的方法、装置
CN111680514B (zh) 信息处理和模型训练方法、装置、设备及存储介质
CN112182159A (zh) 一种基于语义表示的个性化检索式对话方法和系统
CN103942188B (zh) 一种识别语料语言的方法和装置
CN107368525B (zh) 搜索相关词的方法及装置、存储介质和终端设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200820

Address after: 518057 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer

Co-patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right