CN107679033B - 文本断句位置识别方法和装置 - Google Patents

文本断句位置识别方法和装置 Download PDF

Info

Publication number
CN107679033B
CN107679033B CN201710810545.2A CN201710810545A CN107679033B CN 107679033 B CN107679033 B CN 107679033B CN 201710810545 A CN201710810545 A CN 201710810545A CN 107679033 B CN107679033 B CN 107679033B
Authority
CN
China
Prior art keywords
sentence
information
text
text information
current interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710810545.2A
Other languages
English (en)
Other versions
CN107679033A (zh
Inventor
钱胜
程强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN201710810545.2A priority Critical patent/CN107679033B/zh
Publication of CN107679033A publication Critical patent/CN107679033A/zh
Priority to US16/013,167 priority patent/US11004448B2/en
Application granted granted Critical
Publication of CN107679033B publication Critical patent/CN107679033B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本断句位置识别方法和装置,其中,方法包括:接收用户输入的连续语音信息,对连续语音信息进行识别生成对应的文本信息;对文本信息进行分析确定间隔位置,将句尾句首标志依次插入到每个间隔位置;按照预设算法计算当前间隔位置插入句尾句首标志对应的断句分值;判断断句分值是否大于预设阈值,如果大于,则确定当前间隔位置为断句位置。由此,根据用户的个人意图进行断句,避免用户的误停顿或者语速快等原因对断句位置的误识别处理,提高了对用户输入的语音的断句的准确度,以便于语音识别准确率的提高。

Description

文本断句位置识别方法和装置
技术领域
本发明涉及语音处理技术领域,尤其涉及一种文本断句位置识别方法和装置。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中,人工智能最重要的方面就是语音识别技术。
相关技术中,对用户输入的连续语音进行识别时,根据用户的停顿时间来识别输入的语音信息中需要断句的位置,而后在对应位置设置相应标点。但是,每个用户的语速和输入场景不同,因此,仅仅依据语音输入的停顿时间来识别断句位置会有疏漏或者错误,降低了断句位置识别的准确率。
发明内容
本发明旨在至少在一定程度上解决上述的技术问题之一。
为此,本发明的第一个目的在于提出一种文本断句位置识别方法,已解决现有技术中,断句位置不准确的技术问题。
本发明的第二个目的在于提出一种文本断句位置识别装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种文本断句位置识别方法,包括以下步骤:接收用户输入的连续语音信息,对所述连续语音信息进行识别生成对应的文本信息;对所述文本信息进行分析确定间隔位置,将句尾句首标志依次插入到每个间隔位置;按照预设算法计算当前间隔位置插入所述句尾句首标志对应的断句分值;判断所述断句分值是否大于预设阈值,如果大于,则确定所述当前间隔位置为断句位置。
本发明实施例的文本断句位置识别方法,接收用户输入的连续语音信息,对连续语音信息进行识别生成对应的文本信息,对文本信息进行分析确定间隔位置,将句尾句首标志依次插入到每个间隔位置,按照预设算法计算当前间隔位置插入句尾句首标志对应的断句分值,进而,判断断句分值是否大于预设阈值,如果大于,则确定当前间隔位置为断句位置。由此,根据用户的个人意图进行断句,避免用户的误停顿或者语速快等原因对断句位置的误识别处理,提高了对用户输入的语音的断句的准确度,以便于语音识别准确率的提高。
为达上述目的,本发明第二方面实施例提出了一种文本断句位置识别装置,包括:生成模块,用于接收用户输入的连续语音信息,对所述连续语音信息进行识别生成对应的文本信息;分析模块,用于对所述文本信息进行分析确定间隔位置;插入模块,用于对所述文本信息进行分析确定间隔位置;计算模块,用于按照预设算法计算当前间隔位置插入所述句尾句首标志对应的断句分值;确定模块,用于判断所述断句分值是否大于预设阈值,如果大于,则确定所述当前间隔位置为断句位置。
本发明实施例的文本断句位置识别装置,接收用户输入的连续语音信息,对连续语音信息进行识别生成对应的文本信息,对文本信息进行分析确定间隔位置,将句尾句首标志依次插入到每个间隔位置,按照预设算法计算当前间隔位置插入句尾句首标志对应的断句分值,进而,判断断句分值是否大于预设阈值,如果大于,则确定当前间隔位置为断句位置。由此,根据用户的个人意图进行断句,避免用户的误停顿或者语速快等原因对断句位置的误识别处理,提高了对用户输入的语音的断句的准确度,以便于语音识别准确率的提高。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如上述实施例所述的文本断句位置识别方法。
为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器被执行时,使得能够执行如上述实施例所述的文本断句位置识别方法。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种如上述实施例所述的文本断句位置识别方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的文本断句位置识别方法的流程图;
图2是根据本发明另一个实施例的文本断句位置识别方法的流程图;
图3是根据本发明又一个实施例的文本断句位置识别方法的流程图;
图4是根据本发明再一个实施例的文本断句位置识别方法的流程图;
图5是根据本发明一个实施例的文本断句位置识别装置的结构示意图;
图6是根据本发明另一个实施例的文本断句位置识别装置的结构示意图;以及
图7是根据本发明一个实施例的计算机设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的文本断句位置识别方法和装置。
正如以上分析,在实际应用中,每个用户的语速和输入场景不同,因此,现有技术中,仅仅依据语音输入的停顿时间来识别断句位置会有疏漏或者错误,降低了断句位置识别的准确率。
为了解决上述技术问题,本发明提出了一种文本断句位置识别方法,可以根据用户的意图进行断句显示标点,避免用户的误停顿或者语速快等原因对断句位置的误识别处理,提高了断句位置识别的准确性。
图1是根据本发明一个实施例的文本断句位置识别方法的流程图,如图1所示,该方法包括:
步骤101,接收用户输入的连续语音信息,对连续语音信息进行识别生成对应的文本信息。
在本发明的实施例中,根据应用场景的不同,可采用不同的方式接收到用户输入的连续语音信息,作为一种可能的实现方式,通过终端设备中的麦克风等语音装置实时接收用户连续语音信息,作为另一种可能的实现方式,根据用户的选择,提取用户录音中的连续语音信息。
具体而言,在本发明的实施例中,接收用户输入的连续语音信息,对该连续语音信息进行识别生成对应的文本信息,以便于对连续语音信息进行断句处理。
需要说明的是,根据具体应用场景的不同,可采用不同的实现方式对连续语音信息进行识别生成对应的文本信息,作为一种可能实现方式,预先根据大量实验数据建立并存储与不同的语音对应的文本信息,从而,在获取用户输入的连续语音信息后,将该连续语音信息与预先存储的语音进行匹配,并获取匹配成功的语音对应的文本信息。
作为另一种可能的实现方式,采用预先根据实验数据设置的卷积神经网络模型等进行文本信息的转换,在本示例中,将用户输入的连续语音信息输入预设的卷积神经网络模型,根据卷积神经网络模型的输出获取连续语音信息对应的文本信息。
步骤102,对文本信息进行分析确定间隔位置,将句尾句首标志依次插入到每个间隔位置。
其中,根据应用场景的不同,句尾句首标志可以为特殊的字符,比如“*”、“#”等,也可以是特殊的编码,比如“00”或“01”等。
需要说明的是,根据具体应用场景的不同,可采用不同的方式,实现对文本信息进行分析确定间隔位置,将句尾句首标志依次插入到每个间隔位置,举例说明如下:
作为一种可能的实现方式,如图2所示,上述步骤102包括以下步骤:
步骤201,对文本信息进行切词处理生成多个分词。
具体地,可以根据文本的词性等对文本信息进行切词处理生成多个分词。
步骤202,将句尾句首标志依次插入到每个分词后面的间隔位置。
具体地,由于每个分词通常是固定的词,比如“降落伞”等,每个分词通常是连续的,因此,断句的位置应该在不同的分词之间,从而,在本示例中,将句尾句首标志依次插入到每个分词后面的间隔位置。
举例而言,当句尾句首标志为“*”时,对文本信息“我想要一个降落伞”进行切词处理,生成多个分词为“我”、“想”、“要”、“一个”、“降落伞”,则将句尾句首标志依次插入到每个分词后面的间隔位置的结果为*“我”*“想”*“要”*“一个”*“降落伞”*。
作为一种可能的实现方式,如图3所示,上述步骤102包括以下步骤:
步骤301,按照预设的关键词库对文本信息进行匹配,获取匹配成功的关键词。
可以理解,本发明实施例中的预设的关键词,可以是预先根据大量实验数据设置的用户习惯连续发音的一些词,这种关键词可能是根据用户个人说话习惯学习得来的,也可以是根据网络流行语等大数据学习得到的,该关键词可能与传统的连续的词不相同。
具体地,在本示例中,对连续语音信息进行识别生成对应的文本信息后,按照预设的关键词库对文本信息进行匹配,获取匹配成功的关键词。
步骤302,将句尾句首标志依次插入到每个关键词后面的间隔位置。
举例而言,当句尾句首标志为“*”时,对文本信息“我想要一个降落伞”进行关键词匹配处理,匹配出的关键词为“一个”、“降落伞”,则将句尾句首标志依次插入到每个关键词后面的间隔位置的结果为“我想要”*“一个”*“降落伞”*。
步骤103,按照预设算法计算当前间隔位置插入句尾句首标志对应的断句分值。
可以理解的是,将句尾句首标志依次插入到每个间隔位置后,每个间隔位置所对应的断句并不一定与用户的意图一致,因而,需要按照预设算法计算当前间隔位置插入句尾句首标志对应的断句分值,以根据该断句分值确定出吻合用户的说话习惯的断句位置。
根据应用场景的不同,上述预设算法对应的内容不同,举例说明如下:
作为一种可能的实现方式,如图4所示,步骤103包括:
步骤401,获取当前间隔位置的上下文信息和位置特征。
其中,上下文信息包括上下文的内容信息、长度信息、词性信息等,位置特征包括属于“形容词和介词之间”、“介词和形容之间”等词性位置特征,“钱5个字后3个字长度”等分割字数位置信息,“停顿2秒”等停顿时间信息等。
步骤402,根据上下文信息和位置特征获取当前间隔位置在整句中的权重信息。
具体地,由于上下文信息和位置特征与断句位置相关,不同的上下文信息和位置特征,对是否是断句位置的影响不同,因而,可以通过分析上下文信息和位置特征获取当前间隔位置在整句中的权重信息。
举例而言,对于上下文信息中的参考标准-连接紧密关系(比如形容词和形容词之间的连接关系,相对主语和介词之间的连接关系不紧密),与是否是是断句位置关系较大,因而对应的权重信息越大,而对于位置特征中的参考标准-停顿间隔时间的长短,与是否是是断句位置关系较大,因而对应的权重信息越大等。
在本示例中,语句的位置特征反映了用户的个人说话习惯,比如停顿间隔时间的位置和长短,因此,根据位置特征进行断句符合用户的个人需求。
步骤403,按照预设算法和权重信息计算当前间隔位置插入句尾句首标志对应的断句分值。
可以理解,在本发明的实施例中,预先设置于权重信息对应的预设算法,通过该预设算法可以根据权重信息计算当前间隔位置插入句尾句首标志对应的断句分值,其中,断句分值越高,越有可能是断句位置。
其中,根据应用场景的不同,该预设算法的表现形式不同,作为一种可能的实现方式,该预设的算法可以为当前间隔位置多个权重信息与权重对应的参考标准乘积之和,比如,对于当前间隔位置,上下文参考标准1对应的权重为a1,得分为b1,上下文参考标准2对应的为a2,得分为b2,位置特征参考标准1对应的权重为a3,得分为b3,则得到的该当前间隔位置的断句分值S=a1*b1+a2*b2+a3*b3。
步骤104,判断断句分值是否大于预设阈值,如果大于,则确定当前间隔位置为断句位置。
其中,预设阈值可以是根据实验数据标定的参考值,当断句分值大于预设阈值,则确定当前间隔位置为断句位置。
在本发明的一个实施例中,为了使得断句位置更直观,可根据当前间隔位置的上下文信息在断句位置显示对应的标点符号,比如,根据上下文信息,判断的当前断句位置的前后词对应词性均为形容词,则断句位置显示对应的标点符号为顿号等。
综上所述,本发明实施例的文本断句位置识别方法,接收用户输入的连续语音信息,对连续语音信息进行识别生成对应的文本信息,对文本信息进行分析确定间隔位置,将句尾句首标志依次插入到每个间隔位置,按照预设算法计算当前间隔位置插入句尾句首标志对应的断句分值,进而,判断断句分值是否大于预设阈值,如果大于,则确定当前间隔位置为断句位置。由此,根据用户的个人意图进行断句,避免用户的误停顿或者语速快等原因对断句位置的误识别处理,提高了对用户输入的语音的断句的准确度,以便于语音识别准确率的提高。
为了实现上述实施例,本发明还提出一种文本断句位置识别装置。图5是根据本发明一个实施例的文本断句位置识别装置的结构示意图,如图5所示,该文本断句位置识别装置包括:生成模块100、分析模块200、插入模块300、计算模块400和确定模块500。
其中,生成模块100,用于接收用户输入的连续语音信息,对连续语音信息进行识别生成对应的文本信息。
分析模块200,用于对文本信息进行分析确定间隔位置。
插入模块300,用于对文本信息进行分析确定间隔位置。
计算模块400,用于按照预设算法计算当前间隔位置插入句尾句首标志对应的断句分值。
在本发明的一个实施例中,如图6所示,在如图5所示的基础上,该计算模块400包括生成单元410和插入单元420。
其中,生成单元410,用于对文本信息进行切词处理生成多个分词。
插入单元420,用于将句尾句首标志依次插入到每个分词后面的间隔位置。
确定模块500,用于判断断句分值是否大于预设阈值,如果大于,则确定当前间隔位置为断句位置。
需要说明的是,前述对文本断句位置识别方法实施例的解释说明也适用于该实施例的文本断句位置识别装置,本发明文本断句位置识别实施例中未公布的细节,此处不再赘述。
综上所述,本发明实施例的文本断句位置识别装置,接收用户输入的连续语音信息,对连续语音信息进行识别生成对应的文本信息,对文本信息进行分析确定间隔位置,将句尾句首标志依次插入到每个间隔位置,按照预设算法计算当前间隔位置插入句尾句首标志对应的断句分值,进而,判断断句分值是否大于预设阈值,如果大于,则确定当前间隔位置为断句位置。由此,根据用户的个人意图进行断句,避免用户的误停顿或者语速快等原因对断句位置的误识别处理,提高了对用户输入的语音的断句的准确度,以便于语音识别准确率的提高。
为了实现上述实施例,本发明还提出了一种计算机设备,图7是根据本发明一个实施例的计算机设备的结构示意图。如图7所示,存储器21、处理器22及存储在存储器21上并可在处理器22上运行的计算机程序。
处理器22执行所述程序时实现上述实施例中提供的文本断句位置识别方法。
进一步地,计算机设备还包括:
通信接口23,用于存储器21和处理器22之间的通信。
存储器21,用于存放可在处理器22上运行的计算机程序。
存储器21可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
处理器22,用于执行所述程序时实现上述实施例所述的文本断句位置识别方法。
如果存储器21、处理器22和通信接口23独立实现,则通信接口21、存储器21和处理器22可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器21、处理器22及通信接口23,集成在一块芯片上实现,则存储器21、处理器22及通信接口23可以通过内部接口完成相互间的通信。
处理器22可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器被执行时,使得能够执行如上述实施例所述的文本断句位置识别方法。
为了实现上述实施例,本发明还提出一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行如上述实施例所述的文本断句位置识别方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (6)

1.一种文本断句位置识别方法,其特征在于,包括以下步骤:
接收用户输入的连续语音信息,对所述连续语音信息进行识别生成对应的文本信息;所述文本信息为未断句的信息;
对所述未断句的文本信息进行分析确定间隔位置,将句尾句首标志依次插入到每个间隔位置;
按照预设算法计算所述未断句的文本信息的当前间隔位置插入所述句尾句首标志对应的断句分值;
判断所述断句分值是否大于预设阈值,如果大于,则确定所述当前间隔位置为断句位置;
所述按照预设算法计算所述未断句的文本信息的当前间隔位置插入所述句尾句首标志对应的断句分值,包括:
获取所述当前间隔位置的上下文信息和位置特征;
根据所述上下文信息和位置特征获取所述当前间隔位置在整句中的权重信息;
按照预设算法和所述权重信息计算当前间隔位置插入所述句尾句首标志对应的断句分值;
所述对所述未断句的文本信息进行分析确定间隔位置,将句尾句首标志依次插入到每个间隔位置,包括:
对所述未断句的文本信息进行切词处理生成多个分词;
将句尾句首标志依次插入到第一个分词的前面、以及每个分词后面的间隔位置。
2.如权利要求1所述的方法,其特征在于,所述对所述未断句的文本信息进行分析确定间隔位置,将句尾句首标志依次插入到每个间隔位置,包括另一种实现方式:
按照预设的关键词库对所述文本信息进行匹配,获取匹配成功的关键词;
将句尾句首标志依次插入到每个关键词后面的间隔位置。
3.如权利要求1所述的方法,其特征在于,在所述确定所述当前间隔位置为断句位置之后,还包括:
根据所述当前间隔位置的上下文信息在所述断句位置显示对应的标点符号。
4.一种文本断句位置识别装置,其特征在于,包括:
生成模块,用于接收用户输入的连续语音信息,对所述连续语音信息进行识别生成对应的文本信息;所述文本信息为未断句的信息;
分析模块,用于对所述未断句的文本信息进行分析确定间隔位置;
插入模块,用于对将句尾句首标志依次插入到每个间隔位置;
计算模块,用于按照预设算法计算所述未断句的文本信息的当前间隔位置插入所述句尾句首标志对应的断句分值;
确定模块,用于判断所述断句分值是否大于预设阈值,如果大于,则确定所述当前间隔位置为断句位置;
所述按照预设算法计算所述未断句的文本信息的当前间隔位置插入所述句尾句首标志对应的断句分值,包括:
获取所述当前间隔位置的上下文信息和位置特征;
根据所述上下文信息和位置特征获取所述当前间隔位置在整句中的权重信息;
按照预设算法和所述权重信息计算当前间隔位置插入所述句尾句首标志对应的断句分值;
所述计算模块包括:
生成单元,用于对所述未断句的文本信息进行切词处理生成多个分词;
插入单元,用于将句尾句首标志依次插入到第一个分词的前面、以及每个分词后面的间隔位置。
5.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-3中任一所述的文本断句位置识别方法。
6.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一所述的文本断句位置识别方法。
CN201710810545.2A 2017-09-11 2017-09-11 文本断句位置识别方法和装置 Active CN107679033B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710810545.2A CN107679033B (zh) 2017-09-11 2017-09-11 文本断句位置识别方法和装置
US16/013,167 US11004448B2 (en) 2017-09-11 2018-06-20 Method and device for recognizing text segmentation position

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710810545.2A CN107679033B (zh) 2017-09-11 2017-09-11 文本断句位置识别方法和装置

Publications (2)

Publication Number Publication Date
CN107679033A CN107679033A (zh) 2018-02-09
CN107679033B true CN107679033B (zh) 2021-12-14

Family

ID=61135871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710810545.2A Active CN107679033B (zh) 2017-09-11 2017-09-11 文本断句位置识别方法和装置

Country Status (2)

Country Link
US (1) US11004448B2 (zh)
CN (1) CN107679033B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491379A (zh) * 2018-03-08 2018-09-04 平安科技(深圳)有限公司 快捷键识别方法、装置、设备以及计算机可读存储介质
US10713441B2 (en) * 2018-03-23 2020-07-14 Servicenow, Inc. Hybrid learning system for natural language intent extraction from a dialog utterance
CN110364145B (zh) * 2018-08-02 2021-09-07 腾讯科技(深圳)有限公司 一种语音识别的方法、语音断句的方法及装置
KR20200048976A (ko) * 2018-10-31 2020-05-08 삼성전자주식회사 전자 장치 및 그 제어 방법
CN109285545A (zh) * 2018-10-31 2019-01-29 北京小米移动软件有限公司 信息处理方法及装置
CN111160003B (zh) * 2018-11-07 2023-12-08 北京猎户星空科技有限公司 一种断句方法及装置
CN109920432B (zh) 2019-03-05 2024-06-18 联通在线信息科技有限公司 一种语音识别方法、装置、设备及存储介质
CN110264997A (zh) * 2019-05-30 2019-09-20 北京百度网讯科技有限公司 语音断句的方法、装置和存储介质
CN110287489B (zh) * 2019-06-24 2023-07-28 北京大米科技有限公司 文本生成方法、装置、存储介质和电子设备
CN110502631B (zh) * 2019-07-17 2022-11-04 招联消费金融有限公司 一种输入信息响应方法、装置、计算机设备和存储介质
CN112509570B (zh) * 2019-08-29 2024-02-13 北京猎户星空科技有限公司 语音信号处理方法、装置、电子设备及存储介质
CN111128254B (zh) * 2019-11-14 2021-09-03 网易(杭州)网络有限公司 音频播放方法、电子设备及存储介质
CN111062258B (zh) * 2019-11-22 2023-10-24 华为技术有限公司 文本区域识别方法、装置、终端设备及可读存储介质
CN111191459B (zh) * 2019-12-25 2023-12-12 医渡云(北京)技术有限公司 一种文本处理方法、装置、可读介质及电子设备
CN114125571B (zh) * 2020-08-31 2024-07-30 小红书科技有限公司 字幕生成方法、字幕测试方法和字幕处理设备
CN114420125A (zh) * 2020-10-12 2022-04-29 腾讯科技(深圳)有限公司 音频处理方法、装置、电子设备及介质
CN112466289A (zh) * 2020-12-21 2021-03-09 北京百度网讯科技有限公司 语音指令的识别方法、装置、语音设备和存储介质
CN113450760A (zh) * 2021-06-07 2021-09-28 北京一起教育科技有限责任公司 一种文本转语音的方法、装置及电子设备
US12039996B2 (en) 2021-07-28 2024-07-16 Google Llc Dynamic adaptation of graphical user interface elements by an automated assistant as a user iteratively provides a spoken utterance, or sequence of spoken utterances
CN113781997B (zh) * 2021-09-22 2024-07-23 联想(北京)有限公司 语音合成方法及电子设备
CN114171003A (zh) * 2021-12-09 2022-03-11 云知声智能科技股份有限公司 语音识别系统的重打分方法、装置、电子设备和存储介质
CN117113974B (zh) * 2023-04-26 2024-05-24 荣耀终端有限公司 文本分段方法、装置、芯片、电子设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5479563A (en) * 1990-09-07 1995-12-26 Fujitsu Limited Boundary extracting system from a sentence
CN104142915A (zh) * 2013-05-24 2014-11-12 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
CN105609107A (zh) * 2015-12-23 2016-05-25 北京奇虎科技有限公司 一种基于语音识别的文本处理方法和装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4882757A (en) * 1986-04-25 1989-11-21 Texas Instruments Incorporated Speech recognition system
JPH05197389A (ja) * 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
US6341372B1 (en) * 1997-05-01 2002-01-22 William E. Datig Universal machine translator of arbitrary languages
US6067514A (en) * 1998-06-23 2000-05-23 International Business Machines Corporation Method for automatically punctuating a speech utterance in a continuous speech recognition system
EP1422692A3 (en) * 2002-11-22 2004-07-14 ScanSoft, Inc. Automatic insertion of non-verbalized punctuation in speech recognition
US8849648B1 (en) * 2002-12-24 2014-09-30 At&T Intellectual Property Ii, L.P. System and method of extracting clauses for spoken language understanding
JP2005202884A (ja) * 2004-01-19 2005-07-28 Toshiba Corp 送信装置、受信装置、中継装置、および送受信システム
US8719004B2 (en) * 2009-03-19 2014-05-06 Ditech Networks, Inc. Systems and methods for punctuating voicemail transcriptions
US9135231B1 (en) * 2012-10-04 2015-09-15 Google Inc. Training punctuation models
CN104143331B (zh) * 2013-05-24 2015-12-09 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
US9734820B2 (en) * 2013-11-14 2017-08-15 Nuance Communications, Inc. System and method for translating real-time speech using segmentation based on conjunction locations
JP6400936B2 (ja) * 2014-04-21 2018-10-03 シノイースト・コンセプト・リミテッド 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
US10762894B2 (en) * 2015-03-27 2020-09-01 Google Llc Convolutional neural networks
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US10332506B2 (en) * 2015-09-02 2019-06-25 Oath Inc. Computerized system and method for formatted transcription of multimedia content
US9697835B1 (en) * 2016-03-31 2017-07-04 International Business Machines Corporation Acoustic model training
US10403275B1 (en) * 2016-07-28 2019-09-03 Josh.ai LLC Speech control for complex commands
US20190043486A1 (en) * 2017-08-04 2019-02-07 EMR.AI Inc. Method to aid transcribing a dictated to written structured report

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5479563A (en) * 1990-09-07 1995-12-26 Fujitsu Limited Boundary extracting system from a sentence
CN104142915A (zh) * 2013-05-24 2014-11-12 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
CN105609107A (zh) * 2015-12-23 2016-05-25 北京奇虎科技有限公司 一种基于语音识别的文本处理方法和装置

Also Published As

Publication number Publication date
US11004448B2 (en) 2021-05-11
CN107679033A (zh) 2018-02-09
US20190080683A1 (en) 2019-03-14

Similar Documents

Publication Publication Date Title
CN107679033B (zh) 文本断句位置识别方法和装置
CN112533051B (zh) 弹幕信息显示方法、装置、计算机设备和存储介质
CN108305643B (zh) 情感信息的确定方法和装置
CN107731228B (zh) 英文语音信息的文本转换方法和装置
CN106919661B (zh) 一种情感类型识别方法及相关装置
CN110188350B (zh) 文本一致性计算方法及装置
CN109522564B (zh) 语音翻译方法和装置
CN104598644B (zh) 喜好标签挖掘方法和装置
CN110413760B (zh) 人机对话方法、装置、存储介质及计算机程序产品
CN109637521A (zh) 一种基于深度学习的唇语识别方法及装置
CN106844340B (zh) 基于人工智能的新闻摘要生成和显示方法、装置及系统
CN108628868B (zh) 文本分类方法和装置
JP2020004382A (ja) 音声対話方法及び装置
CN110738046B (zh) 观点抽取方法及装置
CN111354340B (zh) 数据标注准确度验证方法、装置、电子设备及存储介质
CN109166569B (zh) 音素误标注的检测方法和装置
CN113836303A (zh) 一种文本类别识别方法、装置、计算机设备及介质
CN111859940A (zh) 一种关键词提取方法、装置、电子设备及存储介质
CN107918605B (zh) 分词处理方法、装置、移动终端及计算机可读存储介质
EP3813061A1 (en) Attribute identifying device, attribute identifying method, and program storage medium
CN111368066A (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN114970514A (zh) 基于人工智能的中文分词方法、装置、计算机设备及介质
CN111222328A (zh) 标签提取方法、装置和电子设备
CN115859999B (zh) 意图识别方法、装置、电子设备及存储介质
CN110647622A (zh) 交互数据有效性识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant