CN106446109A - 语音文件摘要的获取方法和装置 - Google Patents

语音文件摘要的获取方法和装置 Download PDF

Info

Publication number
CN106446109A
CN106446109A CN201610826545.7A CN201610826545A CN106446109A CN 106446109 A CN106446109 A CN 106446109A CN 201610826545 A CN201610826545 A CN 201610826545A CN 106446109 A CN106446109 A CN 106446109A
Authority
CN
China
Prior art keywords
text
sentence
sentences
voice file
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610826545.7A
Other languages
English (en)
Inventor
王建社
柳林
冯祥
胡国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201610826545.7A priority Critical patent/CN106446109A/zh
Publication of CN106446109A publication Critical patent/CN106446109A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种语音文件摘要的获取方法和装置,该语音文件摘要的获取方法包括:获取待处理的语音文件;对所述语音文件进行处理,得到所述语音文件对应的文本句子;计算所述文本句子的融合得分,其中,所述融合得分根据所述文本句子与所述语音文件对应的文本的主题的相似度及与前一个句子的相似度确定;根据所述融合得分在所述文本句子中选择需要个数的文本句子,并根据选择的文本句子组成所述语音文件的摘要。该方法能够提高获取语音文件摘要的效率,降低成本。

Description

语音文件摘要的获取方法和装置
技术领域
本申请涉及语音信号处理和自然语言处理等技术领域,尤其涉及一种语音文件摘要的获取方法和装置。
背景技术
随着连续语音识别技术的发展,对语音信号进行连续语音识别从而得到语音的文本内容变得越来越容易,使得从海量的音频数据中快速获取有用的信息变得可能。传统的从大量语音文件中获取信息的做法主要有两种:第一种是采用人工对语音文件进行逐一监听,进而找到有用的目标信息,这种方法需要耗费大量的人力和物力,效率较低;第二种是先将语音文件进行文字转写,得到文本文件,然后在文本文件中进行关键词检索,得到较小范围和较少数量的候选文本,然后再由人工对检索出来的候选文本进行逐一筛选,最后才能获取到有用信息。该种方法一方面也需要消耗较大的人力和物力,另一方面在语音转写正确率不高的情况下,往往需要人工对转写结果进行校验,效率上还有较大的提升空间。因此,上述相关技术中获取语音文件摘要的方法都需要较多人工干预,效率较差。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的一个目的在于提出一种语音文件摘要的获取方法,该方法能够自动得到语音文件的摘要,从而在获取语音文件摘要时能够提高效率,降低成本。
本申请的另一个目的在于提出一种语音文件摘要的获取装置。
为达到上述目的,本申请第一方面实施例提出的语音文件摘要的获取方法,包括:获取待处理的语音文件;对所述语音文件进行处理,得到所述语音文件对应的文本句子;计算所述文本句子的融合得分,其中,所述融合得分根据所述文本句子与所述语音文件对应的文本的主题的相似度及与前一个句子的相似度确定;根据所述融合得分在所述文本句子中选择需要个数的文本句子,并根据选择的文本句子组成所述语音文件的摘要。
本申请第一方面实施例提出的语音文件摘要的获取方法,通过获取语音文件对应的文本句子,计算文本句子的融合得分,以及根据融合得分选择文本句子组成语音文件的摘要,可以在不需要人工干预的情况下自动得到语音文件的摘要,从而在获取语音文件摘要时能够提高效率,降低成本。
为达到上述目的,本申请第二方面实施例提出的语音文件摘要的获取装置,包括:获取模块,用于获取待处理的语音文件;转换模块,用于对所述语音文件进行处理,得到所述语音文件对应的文本句子;计算模块,用于计算所述文本句子的融合得分,其中,所述融合得分根据所述文本句子与所述语音文件对应的文本的主题的相似度及与前一个句子的相似度确定;摘要模块,用于根据所述融合得分在所述文本句子中选择需要个数的文本句子,并根据选择的文本句子组成所述语音文件的摘要。
本申请第二方面实施例提出的语音文件摘要的获取装置,通过获取语音文件对应的文本句子,计算文本句子的融合得分,以及根据融合得分选择文本句子组成语音文件的摘要,可以在不需要人工干预的情况下自动得到语音文件的摘要,从而在获取语音文件摘要时能够提高效率,降低成本。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例提出的语音文件摘要的获取方法的流程示意图;
图2是本申请另一个实施例提出的语音文件摘要的获取方法的流程示意图;
图3是本申请实施例中生成文本摘要模型的一种流程示意图;
图4是本申请实施例中确定文本句子的句子摘要特征的流程示意图;
图5是本申请一个实施例提出的语音文件摘要的获取装置的结构示意图;
图6是本申请另一个实施例提出的语音文件摘要的获取装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本申请一个实施例提出的语音文件摘要的获取方法的流程示意图。
如图1所示,本实施例包括以下步骤:
S11:获取待处理的语音文件。
其中,待处理的语音文件是指需要提取摘要的语音文件,因此,可以选择将每个需要提取摘要的语音文件作为待处理的语音文件。
S12:对所述语音文件进行处理,得到所述语音文件对应的文本句子。
其中,语音文件是音频数据,文本句子是文本数据,因此,可以采用连续语音识别技术对音频数据进行处理,得到对应的文本数据。
具体的,可以先对语音文件进行提取,得到组成语音文件的语音片断,再对每个语音片断进行语音转写(如采用连续语音识别技术进行语音转写),得到每个语音片断对应的文本段落,再对每个文本段落进行分句处理,得到每个文本段落对应的文本句子。类似的,对所有的语音片断进行上述的语音转写和分句后可以得到整体的语音文件对应的文本句子。
其中,在进行语音转写时,可以将连续语音识别技术得到的所有候选的文本中最优的一个候选文本(onebest)作为语音片断对应的文本段落。具体的评价最优的候选文本的方式可以采用现有的连续语音识别技术中的相关内容。
其中,在分句处理时,可以采用条件随机场(Conditional Random Fields,CRF)对文本段落中词的角色进行自动标注,判断当前词是否为句首词或句尾词,从而完成文本段落的分句处理,将文本段落拆分成句子的集合。
进一步的,在提取语音文件的语音片断时,可以采用语音端点检测(VoiceActivity Detection,VAD)和说话人分离,得到组成语音文件的语音片断。
进一步的,可以采用现有的基于能量四门限方法和基于深度神经网络(DeepNeural Network,DNN)模型的方法对语音文件进行VAD(Voice Activity Detection)处理。可以采用现有的基于贝叶斯信息准则(Bayesian Information Criterion,BIC)和层次聚类的说话人分割方法在VAD的结果上对语音进行说话人分离,找出一组端点之间的语音片段中属于不同说话人的位置边界,从而将一组端点之间且属于同一个说话人的语音片断作为最终的一个语音片断。
S13:计算所述文本句子的融合得分,其中,所述融合得分根据所述文本句子与所述语音文件对应的文本的主题的相似度及与前一个句子的相似度确定。
其中,在得到语音文件对应的文本句子后,可以计算每个文本句子的融合得分。或者,
在得到语音文件对应的文本句子后,可以先对这些文本句子做预处理,具体可以是先对这些文本句子进行去重处理,再计算去重处理后的每个文本句子的融合得分。
结合后续流程,简言之,在得到语音文件对应的文本句子后,可以先计算每个文本句子的融合得分,再对得到的文本句子进行去重,再在去重处理后的文本句子中根据融合得分选择文本句子组成语音文件的摘要。或者,在得到语音文件对应的文本句子后,可以先对文本句子进行去重处理,再计算去重处理后的每个文本句子的融合得分,再在去重处理后的文本句子中根据融合得分选择文本句子组成语音文件的摘要。
计算文本句子的融合得分的具体内容可以参见后续描述。
S14:根据所述融合得分在所述文本句子中选择需要个数的文本句子,并根据选择的文本句子组成所述语音文件的摘要。
其中,可以根据预设的压缩率确定上述的需要个数。具体的根据压缩率确定需要个数的内容可以参见后续描述。
另外,如上所示,在得到语音文件对应的文本句子后,可以先对文本句子进行去重处理。之后在去重处理后的文本句子中,可以按照融合得分从高到低的顺序选择上述需要个数的文本句子。
在选择出需要个数的文本句子后,可以将这些文本句子按照时间顺序进行排序,作为语音文件的摘要。相应的,为了能够按照时间顺序排序,在得到语音文件对应的文本句子时还可以同时记录这些句子的时间信息,以根据时间信息按照时间先后顺序进行排序。
本实施例中,通过获取语音文件对应的文本句子,计算文本句子的融合得分,以及根据融合得分选择文本句子组成语音文件的摘要,可以在不需要人工干预的情况下自动得到语音文件的摘要,从而在获取语音文件摘要时能够提高效率,降低成本。
图2是本申请另一个实施例提出的语音文件自动摘要方法的流程示意图。
本实施例将给出一个包含较多特征的示例,可以理解的是,在实际实施中,不限于全部执行本实施例的全部步骤,还可以根据需要选择其中的部分步骤。另外,也不限于本实施例给出的执行顺序,可以根据需要修改执行顺序,或者,也可以将其中全部或部分步骤做等同或类似替换。
现有的自动文本摘要方法均是针对规范的书面文本的摘要方法,如面向新闻、网页文本和科技论文等语料。这些文本一般都包含有标题,且段落中有明显的中心思想句或主题句,表达完整连贯,层次清楚,几乎没有重复;而语音转写文本大多数为口语,无明显的中心思想句或主题句,且存在大量重复表达和无意义的噪声词句。若保证语音转写文本较好的信息压缩效果,都需要人工参与,进行文本摘要的人工编写,则需要投入大量的人力,成本高,且效率低。为了解决这一问题,本申请给出如下实施例。
参见图2,本实施例的流程包括:
S201:获取待处理的语音文件。
S202:对所述语音文件进行VAD和说话人分离,得到组成所述语音文件的语音片断。
S203:对每个语音片断进行语音转写,得到每个语音片断对应的文本段落。
S204:对每个文本段落进行分句处理,得到每个文本段落对应的文本句子,并由所有文本段落对应的文本句子组成所述语音文件对应的文本句子。
上述步骤的具体内容可以参见上一实施例中的相关描述,在此不再详细说明。
之后可以执行S205和S207,并且S205和S207无时序限制关系,可以同时执行或先执行S205或先执行S207。
S205:确定所述语音文件对应的文本的主题。
其中,可以将上述每个语音片断对应的文本段落的集合确定为语音文件对应的文本。
在确定出语音文件对应的文本后,可以根据文档主题生成模型(LatentDirichlet Allocation,LDA)和支持向量机(Support Vector Machine,SVM)对上述的文本进行主题分类,得到所述语音文件对应的文本的主题。
具体的,文本的主题可以是预先设置的,假设共用K个主题,则需要确定语音文件对应的文本在这K个主题中属于哪个主题。
假设所述语音文件对应的文本称为当前文档,则根据LDA,当前文档在主题k上的概率分布如下式所示:
其中,K是主题的总数量;αk是Dirichlet分布超参数(一般取1.0);n(k)表示当前文档中属于第k个主题的词的总数。
之后,将K个组成的向量 当做当前文档的主题分布特征,再借助SVM可对当前文档进行主题分类,从而得到当前文档(即所述语音文件对应的文本)的主题。具体的,SVM分类时可以训练出多个SVM模型(如K*(K-1)/2个),以在K个主题中确定出一个主题。SVM模型的训练方式可以采用通用方式实现,在此不再详细说明。
S206:获取与所述主题对应的文本摘要模型。
其中,文本摘要模型可以预先训练生成,例如,采用卷积神经网络(ConvolutionalNeural Network,CNN)由训练样本训练生成。
具体的,可以预先收集大量的不同主题的句子,以由不同主题的句子训练生成文本摘要模型。在收集到这些句子后,可以根据主题对这些句子进行分类,由不同主题的句子分别训练生成一个文本摘要模型,此时每个文本摘要模型可以对应一个输出节点。但为了降低运算量节省资源,可以由不同主题的句子共享一个文本摘要模型,即不同主题的句子训练生成一个文本摘要模型,该文本摘要模型的输出节点包括多个,每个输出节点对应一个主题。
在不共享文本摘要模型时,则可以建立主题与文本摘要模型的一一对应关系,从而获取到当前的主题对应的文本摘要模型。当共享文本摘要模型时,则可以获取到同一个文本摘要模型。
以共享文本摘要模型为例,该文本摘要模型的输入节点的个数为句子摘要特征的维度,输出节点的个数为主题的个数。如图3所示,训练生成文本摘要模型的流程包括:
S31:获取各个主题的句子。
其中,收集大量的各个主题的文本语料,对这些语料进行分句处理,得到各个主题的句子。
进一步的,对应一个主题,还可以人工删除与该主题不相关的语料,以保证每个主题下的语料的纯度。
S32:获取每个句子的句子摘要特征,以及,对每个句子属于的主题进行人工标注。
例如,先获取句子包括的词,再将词转换为词向量,将所有词向量的均值作为句子的句子摘要特征。由于在根据文本摘要模型获取第一相似度时也涉及了句子摘要特征的获取内容,因此获取句子摘要特征的具体内容可以参见后续描述。
S33:根据句子摘要特征和人工标注的主题进行模型训练,生成文本摘要模型。
其中,模型的输入节点的个数与句子摘要特征的维度相同,因此,可以将句子摘要特征作为模型输入。
模型的输出节点的个数与主题的个数相同,例如,主题共有K个,则模型的输出节点为K个,每个输出节点对应一个主题。
在训练时对应一个主题的句子,需要训练模型使得模型在该主题对应的输出节点的输出值远大于其余输出节点的输出值。例如,一个句子属于第一个主题,则相应的模型输出为[1,0,0,…,0],即第一个主题对应的输出节点的输出值为1,其余输出节点的输出值均为0。当然可以理解的是,上述的[1,0,0,…,0]是理论值,在实际训练时不一定能够保证仅在相应主题上有输出,也可以是相应主题的输出值近似为1,其余节点的输出值近似为0。
S207:确定每个文本句子的句子摘要特征。
如图4所示,确定每个文本句子的句子摘要特征的流程可以包括:
S41:对每个文本句子进行顺滑处理,以及对顺滑处理后的文本句子进行词处理,得到每个文本句子对应的词序列。
其中,对文本句子进行顺滑处理是指删除文本句子中不顺滑的词,从而得到更自然和通顺的句子。不顺滑的词可以根据词的得分确定,如一个词的得分低于预设值则可以确定该词是不顺滑的词,从而删除该不顺滑的词。具体的,对句子进行顺滑处理时,可以先对句子进行分词,再对得到的每个词根据CRF模型进行打分。CRF模型是一种预测模型,可以根据前面已知的词预测后续的可能的词并确定每个可能的词的得分,比如,已知前面的3个词,则根据CRF模型可以预测第4个词可能是哪些词,并确定每个词的得分,之后可以从确定出的每个词的得分中获取句子中实际的第4个词的得分,如果该得分低于预设值,则表明该词是不顺滑的词,需要删除。CRF模型可以根据收集句子语料预先训练生成。
进一步的,对句子进行顺滑处理后,还可以进行词处理,词处理例如包括:过滤掉其中的停用词和无意义的噪声词等,以避免其对后续的文本处理效果产生不利的影响。
因此,通过对每个文本句子进行上述的顺滑处理、过滤停用词和噪声词等,可以得到每个文本句子对应的词序列。
S42:计算所述词序列中每个词对应的词向量,并根据所述词序列中所有词对应的词向量确定每个文本句子对应的句子摘要特征。
其中,可以采用现有或将来出现的技术将词转换为词向量,如采用已有的WordEmbedding技术将词转换为词向量,从而可以得到词序列中每个词对应的词向量。
在得到词序列中所有词对应的词向量后,可以将这些词向量的均值作为文本句子的句子摘要特征。
在S207之后可以执行S208和S209,且S208和S209无时序限制关系,可以同时执行或先执行S208或先执行S209。
S208:根据所述句子摘要特征和所述文本摘要模型,计算每个文本句子的第一相似度,其中,第一相似度得分是每个文本句子与所述语音文件对应的文本的主题的相似度得分。
其中,对应每个文本句子,将该文本句子的句子摘要特征作为文本摘要模型的输入,经过文本摘要模型的处理后得到输出值。以文本摘要模型包括多个输出节点,每个输出节点对应一个主题为例,则可以采用如下计算公式计算第一相似度得分:
其中,ssim(zi)是文本句子的第一相似度得分,zi是语音文件对应的文本的主题对应的输出节点的输出值,zj是K个输出节点中第j个输出节点的输出值。
S209:计算每个文本句子的第二相似度,其中,第二相似度是文本句子与前一个句子的相似度得分。
其中,当一个文本句子无前句时,则该相似度得分可以设置为一个固定值,如0。而对于存在前句的文本句子,在计算两个文本句子的相似度得分时,由于每个文本句子的句子摘要特征可以组成一个向量,因此可以根据两个文本句子对应的句子摘要特征计算这两个向量之间的距离,如余弦距离或欧式距离,从而将计算得到的距离值作为两个文本句子之间的相似度得分。以余弦距离为例,文本句子的第二相似度得分的计算公式可以表达为:
其中,Scosine是文本句子的第二相似度得分,分别表示当前的文本句子与前一个文本句子的句子摘要特征,以向量形式表示,表示两个向量的内积,分别表示向量的模和向量的模。
在S209之后可以执行S210和S211,且S210和S211无时序限制关系,可以同时执行或先执行S210或先执行S211。
S210:对第一相似度和第二相似度进行加权平均运算,得到每个文本句子的融合得分。
融合得分的计算公式可以为:
sfusion=α·scosine+(1-α)ssim
其中,sfusion是文本句子的融合得分,ssim和scosine分别是该文本句子的第一相似度得分和第二相似度得分,α是得分融合因子,介于0到1之间,可使用实际的数据来确定一个最优值。
S211:根据第二相似度对文本句子进行去重处理,得到去重处理后的文本句子。
其中,当计算得到一个文本句子的第二相似度大于预设值时,可以确定该文本句子与其前一个句子是重复的,可以删除其中的一个,以进行去重处理。具体的,在删除时可以删除句子长度较短的一个而保留句子长度较长的一个,句子长度可以用句子中包含的字的总数表示。
S212:根据预设的压缩率确定需要个数。
其中,压缩率的表达式如下:
其中,γcompress表示文本摘要的压缩率,该值可根据需要设置;sent-smoothi表示第i个被抽取为文本摘要的句子的长度(即字数),摘要句从顺滑后的文本句子中抽取;N表示被抽取成为摘要句的句子总数,也就是上述的需要个数;sent-originalj表示原始文本(顺滑前)中第j个句子的长度;M表示原始文本(顺滑前)中的句子总数。摘要抽取时,N的大小从1开始逐渐增大,当γcompress大于等于用户设定的压缩率时,N被确定下来。
S212与S210和S211无时序限制关系。
S213:在去重处理后的文本句子中,根据融合得分选择需要个数的文本句子。
假设需要个数用N表示,则在去重处理后的文本句子中,按照融合得分从高到低的顺序选择N个文本句子。
S214:根据时间顺序对选择的文本句子进行排列,作为所述语音文件的摘要。
在选择得到N个文本句子后,可以根据对这些文本句子按照时间先后顺序进行排序,作为语音文本的摘要。其中,在得到文本句子时可以同时记录文本句子的时间信息,以根据时间信息进行上述的按照时间顺序进行排列。
本实施例中,通过获取语音文件对应的文本句子,计算文本句子的融合得分,以及根据融合得分选择文本句子组成语音文件的摘要,可以在不需要人工干预的情况下自动得到语音文件的摘要,从而在获取语音文件摘要时能够提高效率,降低成本。进一步的,通过对句子进行顺滑处理、根据两种相似度进行融合,以及根据句子间的相似度进行去重处理,可以充分考虑语音转写得到的文本存在的表达不完整和对重要信息表达重复等特点实现语音转写文本的自动摘要抽取和文本内容的有效压缩,解决了传统文本信息压缩过程中存在的人力消耗大、效率低的问题。
图5是本申请一个实施例提出的语音文件摘要的获取装置的结构示意图。
如图5所示,该装置50包括:获取模块51、转换模块52、计算模块53和摘要模块54。
获取模块51,用于获取待处理的语音文件;
转换模块52,用于对所述语音文件进行处理,得到所述语音文件对应的文本句子;
计算模块53,用于计算所述文本句子的融合得分,其中,所述融合得分根据所述文本句子与所述语音文件对应的文本的主题的相似度及与前一个句子的相似度确定;
摘要模块54,用于根据所述融合得分在所述文本句子中选择需要个数的文本句子,并根据选择的文本句子组成所述语音文件的摘要。
一些实施例中,参见图6,所述计算模块53包括:
第一计算子模块531,用于计算所述文本句子的第一相似度得分和第二相似度得分,其中,所述第一相似度得分是所述文本句子与所述语音文件对应的文本的主题的相似度得分,所述第二相似度得分是所述文本句子与前一个句子的相似度得分;
第二计算子模块532,用于对所述第一相似度得分和所述第二相似度得分进行加权平均,得到所述文本句子的融合得分。
一些实施例中,参见图6,该装置50还包括:
第一确定模块55,用于确定所述语音文件对应的文本的主题;
所述第一计算子模块531用于计算所述文本句子的第一相似度得分,包括:
确定所述文本句子的句子摘要特征;
获取与所述主题对应的文本摘要模型;
根据所述句子摘要特征和所述文本摘要模型,计算所述文本句子的第一相似度得分。
一些实施例中,第一确定模块55具体用于:
根据LDA和SVM对所述语音文件对应的文本进行主题分类,得到所述语音文件对应的文本的主题。
一些实施例中,所述第一计算子模块531用于确定所述文本句子的句子摘要特征,包括:
对所述文本句子进行顺滑处理,以及对顺滑处理后的文本句子进行词处理,得到所述文本句子对应的词序列;
计算所述词序列中每个词对应的词向量,并根据所述词序列中所有词对应的词向量确定所述文本句子对应的句子摘要特征。
一些实施例中,第一计算子模块531用于根据所述词序列中所有词对应的词向量确定所述文本句子对应的句子摘要特征,包括:
将所述词序列中所有词对应的词向量的平均值,作为所述文本句子对应的句子摘要特征。
一些实施例中,所述第一计算子模块531用于计算所述文本句子的第二相似度得分,包括:
确定所述文本句子的句子摘要特征,以及,确定所述文本句子的前一个句子的句子摘要特征;
计算所述文本句子的句子摘要特征与所述文本句子的前一个句子的句子摘要特征之间的距离值,将所述距离值作为所述文本句子的第二相似度得分。
一些实施例中,参见图6,该装置50还包括:
第二确定模块56,用于根据预设的压缩率,确定所述需要个数。
一些实施例中,所述摘要模块54用于根据所述融合得分在所述文本句子中选择需要个数的文本句子,包括:
对所述文本句子进行去重处理;
在去重处理后的文本句子中,按照融合得分从高到低的顺序选择需要个数的文本句子。
一些实施例中,所述摘要模块54用于根据选择的文本句子组成所述语音文件的摘要,包括:
根据时间顺序对选择的文本句子进行排列,作为所述语音文件的摘要。
一些实施例中,转换模块52具体用于:
对所述语音文件进行提取,得到组成所述语音文件的语音片断;
对每个语音片断进行语音转写,得到每个语音片断对应的文本段落;
对每个文本段落进行分句处理,得到每个文本段落对应的文本句子,并由所有文本段落对应的文本句子组成所述语音文件对应的文本句子。
一些实施例中,转换模块52用于对所述语音文件进行提取,得到组成所述语音文件的语音片断,包括:
对所述语音文件进行VAD和说话人分离,得到组成所述语音文件的语音片断。
可以理解的是,本实施例的装置与上述方法实施例对应,具体内容可以参见方法实施例的相关描述,在此不再详细说明。
本实施例中,通过获取语音文件对应的文本句子,计算文本句子的融合得分,以及根据融合得分选择文本句子组成语音文件的摘要,可以在不需要人工干预的情况下自动得到语音文件的摘要,从而在获取语音文件摘要时能够提高效率,降低成本。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (20)

1.一种语音文件摘要的获取方法,其特征在于,包括:
获取待处理的语音文件;
对所述语音文件进行处理,得到所述语音文件对应的文本句子;
计算所述文本句子的融合得分,其中,所述融合得分根据所述文本句子与所述语音文件对应的文本的主题的相似度及与前一个句子的相似度确定;
根据所述融合得分在所述文本句子中选择需要个数的文本句子,并根据选择的文本句子组成所述语音文件的摘要。
2.根据权利要求1所述的方法,其特征在于,所述计算所述文本句子的融合得分,包括:
计算所述文本句子的第一相似度得分和第二相似度得分,其中,所述第一相似度得分是所述文本句子与所述语音文件对应的文本的主题的相似度得分,所述第二相似度得分是所述文本句子与前一个句子的相似度得分;
对所述第一相似度得分和所述第二相似度得分进行加权平均,得到所述文本句子的融合得分。
3.根据权利要求2所述的方法,其特征在于,还包括:
确定所述语音文件对应的文本的主题;
所述计算所述文本句子的第一相似度得分,包括:
确定所述文本句子的句子摘要特征;
获取与所述主题对应的文本摘要模型;
根据所述句子摘要特征和所述文本摘要模型,计算所述文本句子的第一相似度得分。
4.根据权利要求3所述的方法,其特征在于,所述确定所述语音文件对应的文本的主题,包括:
根据LDA和SVM对所述语音文件对应的文本进行主题分类,得到所述语音文件对应的文本的主题。
5.根据权利要求3所述的方法,其特征在于,所述确定所述文本句子的句子摘要特征,包括:
对所述文本句子进行顺滑处理,以及对顺滑处理后的文本句子进行词处理,得到所述文本句子对应的词序列;
计算所述词序列中每个词对应的词向量,并根据所述词序列中所有词对应的词向量确定所述文本句子对应的句子摘要特征。
6.根据权利要求5所述的方法,其特征在于,所述根据所述词序列中所有词对应的词向量确定所述文本句子对应的句子摘要特征,包括:
将所述词序列中所有词对应的词向量的平均值,作为所述文本句子对应的句子摘要特征。
7.根据权利要求2所述的方法,其特征在于,所述计算所述文本句子的第二相似度得分,包括:
确定所述文本句子的句子摘要特征,以及,确定所述文本句子的前一个句子的句子摘要特征;
计算所述文本句子的句子摘要特征与所述文本句子的前一个句子的句子摘要特征之间的距离值,将所述距离值作为所述文本句子的第二相似度得分。
8.根据权利要求1所述的方法,其特征在于,还包括:
根据预设的压缩率,确定所述需要个数。
9.根据权利要求1所述的方法,其特征在于,所述根据所述融合得分在所述文本句子中选择需要个数的文本句子,包括:
对所述文本句子进行去重处理;
在去重处理后的文本句子中,按照融合得分从高到低的顺序选择需要个数的文本句子。
10.根据权利要求1所述的方法,其特征在于,所述根据选择的文本句子组成所述语音文件的摘要,包括:
根据时间顺序对选择的文本句子进行排列,作为所述语音文件的摘要。
11.根据权利要求1所述的方法,其特征在于,所述对所述语音文件进行处理,得到所述语音文件对应的文本句子,包括:
对所述语音文件进行提取,得到组成所述语音文件的语音片断;
对每个语音片断进行语音转写,得到每个语音片断对应的文本段落;
对每个文本段落进行分句处理,得到每个文本段落对应的文本句子,并由所有文本段落对应的文本句子组成所述语音文件对应的文本句子。
12.根据权利要求11所述的方法,其特征在于,所述对所述语音文件进行提取,得到组成所述语音文件的语音片断,包括:
对所述语音文件进行VAD和说话人分离,得到组成所述语音文件的语音片断。
13.一种语音文件摘要的获取装置,其特征在于,包括:
获取模块,用于获取待处理的语音文件;
转换模块,用于对所述语音文件进行处理,得到所述语音文件对应的文本句子;
计算模块,用于计算所述文本句子的融合得分,其中,所述融合得分根据所述文本句子与所述语音文件对应的文本的主题的相似度及与前一个句子的相似度确定;
摘要模块,用于根据所述融合得分在所述文本句子中选择需要个数的文本句子,并根据选择的文本句子组成所述语音文件的摘要。
14.根据权利要求13所述的装置,其特征在于,所述计算模块包括:
第一计算子模块,用于计算所述文本句子的第一相似度得分和第二相似度得分,其中,所述第一相似度得分是所述文本句子与所述语音文件对应的文本的主题的相似度得分,所述第二相似度得分是所述文本句子与前一个句子的相似度得分;
第二计算子模块,用于对所述第一相似度得分和所述第二相似度得分进行加权平均,得到所述文本句子的融合得分。
15.根据权利要求14所述的装置,其特征在于,还包括:
第一确定模块,用于确定所述语音文件对应的文本的主题;
所述第一计算子模块用于计算所述文本句子的第一相似度得分,包括:
确定所述文本句子的句子摘要特征;
获取与所述主题对应的文本摘要模型;
根据所述句子摘要特征和所述文本摘要模型,计算所述文本句子的第一相似度得分。
16.根据权利要求15所述的装置,其特征在于,所述第一计算子模块用于确定所述文本句子的句子摘要特征,包括:
对所述文本句子进行顺滑处理,以及对顺滑处理后的文本句子进行词处理,得到所述文本句子对应的词序列;
计算所述词序列中每个词对应的词向量,并根据所述词序列中所有词对应的词向量确定所述文本句子对应的句子摘要特征。
17.根据权利要求14所述的装置,其特征在于,所述第一计算子模块用于计算所述文本句子的第二相似度得分,包括:
确定所述文本句子的句子摘要特征,以及,确定所述文本句子的前一个句子的句子摘要特征;
计算所述文本句子的句子摘要特征与所述文本句子的前一个句子的句子摘要特征之间的距离值,将所述距离值作为所述文本句子的第二相似度得分。
18.根据权利要求13所述的装置,其特征在于,还包括:
第二确定模块,用于根据预设的压缩率,确定所述需要个数。
19.根据权利要求13所述的装置,其特征在于,所述摘要模块用于根据所述融合得分在所述文本句子中选择需要个数的文本句子,包括:
对所述文本句子进行去重处理;
在去重处理后的文本句子中,按照融合得分从高到低的顺序选择需要个数的文本句子。
20.根据权利要求13所述的装置,其特征在于,所述摘要模块用于根据选择的文本句子组成所述语音文件的摘要,包括:
根据时间顺序对选择的文本句子进行排列,作为所述语音文件的摘要。
CN201610826545.7A 2016-09-14 2016-09-14 语音文件摘要的获取方法和装置 Pending CN106446109A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610826545.7A CN106446109A (zh) 2016-09-14 2016-09-14 语音文件摘要的获取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610826545.7A CN106446109A (zh) 2016-09-14 2016-09-14 语音文件摘要的获取方法和装置

Publications (1)

Publication Number Publication Date
CN106446109A true CN106446109A (zh) 2017-02-22

Family

ID=58167948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610826545.7A Pending CN106446109A (zh) 2016-09-14 2016-09-14 语音文件摘要的获取方法和装置

Country Status (1)

Country Link
CN (1) CN106446109A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107015966A (zh) * 2017-03-28 2017-08-04 中国科学院自动化研究所 基于改进的PageRank算法的文本‑音频自动文摘方法
CN107085568A (zh) * 2017-03-29 2017-08-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN107590172A (zh) * 2017-07-17 2018-01-16 北京捷通华声科技股份有限公司 一种大规模语音数据的核心内容挖掘方法及设备
CN108052578A (zh) * 2017-12-08 2018-05-18 上海星佑网络科技有限公司 用于信息处理的方法和装置
CN108305622A (zh) * 2018-01-04 2018-07-20 海尔优家智能科技(北京)有限公司 一种基于语音识别的音频摘要文本创建方法及其创建装置
CN108388942A (zh) * 2018-02-27 2018-08-10 四川云淞源科技有限公司 基于大数据的信息智能处理方法
CN108417206A (zh) * 2018-02-27 2018-08-17 四川云淞源科技有限公司 基于大数据的信息高速处理方法
CN108417204A (zh) * 2018-02-27 2018-08-17 四川云淞源科技有限公司 基于大数据的信息安全处理方法
CN108540373A (zh) * 2018-03-22 2018-09-14 北京云知声信息技术有限公司 即时聊天中语音数据的摘要生成方法、服务器及系统
CN108763338A (zh) * 2018-05-14 2018-11-06 山东亿云信息技术有限公司 一种基于电力行业的新闻采编系统
CN109036381A (zh) * 2018-08-08 2018-12-18 平安科技(深圳)有限公司 语音处理方法及装置、计算机装置及可读存储介质
CN109272262A (zh) * 2018-11-26 2019-01-25 广州努比互联网科技有限公司 一种自然语言特征的分析方法
CN109284357A (zh) * 2018-08-29 2019-01-29 腾讯科技(深圳)有限公司 人机对话方法、装置、电子设备及计算机可读介质
CN109635103A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 摘要生成方法和装置
CN109740015A (zh) * 2019-01-09 2019-05-10 安徽睿极智能科技有限公司 基于音频浓缩摘要的海量音频检索方法
CN110162595A (zh) * 2019-03-29 2019-08-23 深圳市腾讯计算机系统有限公司 用于生成文本摘要的方法、装置、设备以及可读存储介质
CN110162297A (zh) * 2019-05-07 2019-08-23 山东师范大学 一种源代码段自然语言描述自动生成方法及系统
CN110827794A (zh) * 2019-12-06 2020-02-21 科大讯飞股份有限公司 语音识别中间结果的质量评测方法和装置
CN113656575A (zh) * 2021-07-13 2021-11-16 北京搜狗科技发展有限公司 训练数据的生成方法、装置、电子设备及可读介质
CN113891177A (zh) * 2021-05-31 2022-01-04 多益网络有限公司 一种音视频数据的摘要生成方法、装置、设备和存储介质
WO2023089481A1 (en) * 2021-11-18 2023-05-25 International Business Machines Corporation Creation of a minute from a record of a teleconference

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102510375A (zh) * 2011-10-12 2012-06-20 盛乐信息技术(上海)有限公司 语音记事的标题展示方法及系统
CN105224521A (zh) * 2015-09-28 2016-01-06 北大方正集团有限公司 主题词提取方法及使用其获取相关数字资源的方法及装置
CN105868178A (zh) * 2016-03-28 2016-08-17 浙江大学 一种基于短语主题建模的多文档自动摘要生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102510375A (zh) * 2011-10-12 2012-06-20 盛乐信息技术(上海)有限公司 语音记事的标题展示方法及系统
CN105224521A (zh) * 2015-09-28 2016-01-06 北大方正集团有限公司 主题词提取方法及使用其获取相关数字资源的方法及装置
CN105868178A (zh) * 2016-03-28 2016-08-17 浙江大学 一种基于短语主题建模的多文档自动摘要生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUN-NUNG CHEN等: ""Spoken Lecture Summarization by Random Walk over a Graph Constructed with Automatically Extracted Key Terms"", 《PROCEEDINGS OF THE ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION, INTERSPEECH 》 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107015966A (zh) * 2017-03-28 2017-08-04 中国科学院自动化研究所 基于改进的PageRank算法的文本‑音频自动文摘方法
CN107015966B (zh) * 2017-03-28 2019-07-19 中国科学院自动化研究所 基于改进的PageRank算法的文本-音频自动文摘方法
CN107085568B (zh) * 2017-03-29 2022-11-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN107085568A (zh) * 2017-03-29 2017-08-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN107590172A (zh) * 2017-07-17 2018-01-16 北京捷通华声科技股份有限公司 一种大规模语音数据的核心内容挖掘方法及设备
CN107590172B (zh) * 2017-07-17 2020-06-05 北京捷通华声科技股份有限公司 一种大规模语音数据的核心内容挖掘方法及设备
CN108052578A (zh) * 2017-12-08 2018-05-18 上海星佑网络科技有限公司 用于信息处理的方法和装置
CN108052578B (zh) * 2017-12-08 2020-07-28 上海星佑网络科技有限公司 用于信息处理的方法和装置
CN108305622A (zh) * 2018-01-04 2018-07-20 海尔优家智能科技(北京)有限公司 一种基于语音识别的音频摘要文本创建方法及其创建装置
CN108388942A (zh) * 2018-02-27 2018-08-10 四川云淞源科技有限公司 基于大数据的信息智能处理方法
CN108417206A (zh) * 2018-02-27 2018-08-17 四川云淞源科技有限公司 基于大数据的信息高速处理方法
CN108417204A (zh) * 2018-02-27 2018-08-17 四川云淞源科技有限公司 基于大数据的信息安全处理方法
CN108540373A (zh) * 2018-03-22 2018-09-14 北京云知声信息技术有限公司 即时聊天中语音数据的摘要生成方法、服务器及系统
CN108540373B (zh) * 2018-03-22 2020-12-29 云知声智能科技股份有限公司 即时聊天中语音数据的摘要生成方法、服务器及系统
CN108763338A (zh) * 2018-05-14 2018-11-06 山东亿云信息技术有限公司 一种基于电力行业的新闻采编系统
CN109036381A (zh) * 2018-08-08 2018-12-18 平安科技(深圳)有限公司 语音处理方法及装置、计算机装置及可读存储介质
CN109284357A (zh) * 2018-08-29 2019-01-29 腾讯科技(深圳)有限公司 人机对话方法、装置、电子设备及计算机可读介质
CN109284357B (zh) * 2018-08-29 2022-07-19 腾讯科技(深圳)有限公司 人机对话方法、装置、电子设备及计算机可读介质
US11775760B2 (en) 2018-08-29 2023-10-03 Tencent Technology (Shenzhen) Company Limited Man-machine conversation method, electronic device, and computer-readable medium
CN109272262B (zh) * 2018-11-26 2022-04-01 广州努比互联网科技有限公司 一种自然语言特征的分析方法
CN109272262A (zh) * 2018-11-26 2019-01-25 广州努比互联网科技有限公司 一种自然语言特征的分析方法
CN109635103B (zh) * 2018-12-17 2022-05-20 北京百度网讯科技有限公司 摘要生成方法和装置
CN109635103A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 摘要生成方法和装置
CN109740015A (zh) * 2019-01-09 2019-05-10 安徽睿极智能科技有限公司 基于音频浓缩摘要的海量音频检索方法
CN110162595B (zh) * 2019-03-29 2023-08-29 深圳市腾讯计算机系统有限公司 用于生成文本摘要的方法、装置、设备以及可读存储介质
CN110162595A (zh) * 2019-03-29 2019-08-23 深圳市腾讯计算机系统有限公司 用于生成文本摘要的方法、装置、设备以及可读存储介质
CN110162297A (zh) * 2019-05-07 2019-08-23 山东师范大学 一种源代码段自然语言描述自动生成方法及系统
CN110827794A (zh) * 2019-12-06 2020-02-21 科大讯飞股份有限公司 语音识别中间结果的质量评测方法和装置
CN113891177A (zh) * 2021-05-31 2022-01-04 多益网络有限公司 一种音视频数据的摘要生成方法、装置、设备和存储介质
CN113891177B (zh) * 2021-05-31 2024-01-05 多益网络有限公司 一种音视频数据的摘要生成方法、装置、设备和存储介质
CN113656575A (zh) * 2021-07-13 2021-11-16 北京搜狗科技发展有限公司 训练数据的生成方法、装置、电子设备及可读介质
CN113656575B (zh) * 2021-07-13 2024-02-02 北京搜狗科技发展有限公司 训练数据的生成方法、装置、电子设备及可读介质
WO2023089481A1 (en) * 2021-11-18 2023-05-25 International Business Machines Corporation Creation of a minute from a record of a teleconference
US11837219B2 (en) 2021-11-18 2023-12-05 International Business Machines Corporation Creation of a minute from a record of a teleconference

Similar Documents

Publication Publication Date Title
CN106446109A (zh) 语音文件摘要的获取方法和装置
CN108280061B (zh) 基于歧义实体词的文本处理方法和装置
CN107305541B (zh) 语音识别文本分段方法及装置
CN107102981B (zh) 词向量生成方法和装置
US8126897B2 (en) Unified inverted index for video passage retrieval
CN107301170B (zh) 基于人工智能的切分语句的方法和装置
US20150074112A1 (en) Multimedia Question Answering System and Method
US10831993B2 (en) Method and apparatus for constructing binary feature dictionary
US10671666B2 (en) Pattern based audio searching method and system
CN108231066B (zh) 语音识别系统及其方法与词汇建立方法
WO2003010754A1 (fr) Systeme de recherche a entree vocale
CN112464656A (zh) 关键词抽取方法、装置、电子设备和存储介质
CN111078943A (zh) 一种视频文本摘要生成方法及装置
CN110019820B (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN114547370A (zh) 一种视频摘要提取方法及系统
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN115114916A (zh) 用户反馈数据的分析方法、装置及计算机设备
CN112765977B (zh) 一种基于跨语言数据增强的分词方法及装置
Alexander et al. Audio features, precomputed for podcast retrieval and information access experiments
Ibrahim et al. Large-scale text-based video classification using contextual features
CN110717316A (zh) 字幕对话流的主题分割方法及装置
CN116187292A (zh) 对话模板生成方法、装置及计算机可读存储介质
CN115577109A (zh) 文本分类方法、装置、电子设备及存储介质
CN114385777A (zh) 文本数据处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170222

RJ01 Rejection of invention patent application after publication