CN110134756A - 会议记录生成方法、电子装置及存储介质 - Google Patents

会议记录生成方法、电子装置及存储介质 Download PDF

Info

Publication number
CN110134756A
CN110134756A CN201910298388.0A CN201910298388A CN110134756A CN 110134756 A CN110134756 A CN 110134756A CN 201910298388 A CN201910298388 A CN 201910298388A CN 110134756 A CN110134756 A CN 110134756A
Authority
CN
China
Prior art keywords
spokesman
indicate
minutes
voice messaging
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910298388.0A
Other languages
English (en)
Inventor
谭莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
Original Assignee
OneConnect Smart Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Smart Technology Co Ltd filed Critical OneConnect Smart Technology Co Ltd
Priority to CN201910298388.0A priority Critical patent/CN110134756A/zh
Publication of CN110134756A publication Critical patent/CN110134756A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据处理技术,提供了一种会议记录生成方法、电子装置及存储介质。该方法实时获取每一发言者的语音信息,将所述语音信息转换成文本信息并存储于数据库。之后,根据所述语音信息及预设识别规则对发言者身份信息进行识别,对已识别出身份信息的发言者设置不同的ID编号,建立所述ID编号与所述文本信息的映射关系。再利用预设第一算法计算出所述文本信息中所有词语的得分,根据所述得分确定所述文本信息的关键词,基于关键词及映射关系利用预设第二算法生成会议记录,并将所述会议记录以邮件形式发送给预设用户。利用本发明,通过将会议中发言者的语音转换成文本并自动生成会议记录发送给参会人员,提高了会议的效率。

Description

会议记录生成方法、电子装置及存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种会议记录生成方法、电子装置及存储介质。
背景技术
在日常办公过程中,每个工作日几乎都面临各项会议,大到重要的决策层指示会议,小到针对某个事件的讨论都由会议形式来完成。
目前,现有的记录会议内容的方法通常是利用录音笔等设备对会议过程中各人员的发言进行录音,会后通过人工回放录音整理会议记录。或者在会议中使用语音转换设备,将会议人员的发言转换为文字。但是,该记录方式只能实现语音转化成文字,并不能够对整个会议的会议记录进行自动提取和整理。
发明内容
鉴于以上内容,本发明提供一种会议记录生成方法、电子装置及存储介质,其目的在于解决会议过程中,不能自动提取和生成会议记录的问题,通过将会议中发言者的语音转换成文本并自动生成会议记录发送给参会人员。
为实现上述目的,本发明提供一种会议记录生成方法,该方法包括:
转换步骤:实时获取每一发言者的语音信息,将所述语音信息转换成文本信息并存储于数据库;
映射步骤:根据所述语音信息及预设识别规则对发言者身份信息进行识别,对已识别出身份信息的发言者设置不同的ID编号,建立所述ID编号与所述文本信息的映射关系;及
生成步骤:利用预设第一算法计算出所述文本信息中所有词语的得分,根据所述得分确定所述文本信息的关键词,基于所述关键词及所述映射关系利用预设第二算法生成会议记录,并将所述会议记录以邮件形式发送给预设用户,所述预设第一算法的公式为:
其中,Vi、Vj和Vk表示从所述文本信息中提取的词语节点,S(Vi)表示词语节点Vi的得分,S(Vj)表示词语节点Vj的得分,Wji表示Vi和Vj两个词语节点之间边的权重,Wjk表示Vj和Vk两个词语节点之间边的权重,In(Vi)表示指向词语节点Vi的节点集合,Out(Vj)表示词语节点Vj指向的节点集合,d表示阻尼系数。
优选的,所述转换步骤包括:将所述语音信息输入到预设的动态时间归整模型中,得到每一发言者语音信息对应的文本信息。
优选的,所述映射步骤包括:获取每一发言者语音信息的特征参数,根据该特征参数在预先注册的身份索引表中查找与该特征参数对应的标识,根据所述标识识别出发言者的身份信息。
优选的,所述生成步骤包括:将所述得分由大到小排序,选取排序靠前的预设数量的词语作为所述关键词。
优选的,所述生成步骤包括:根据所述关键词及映射关系生成初始会议记录,利用自然语言算法对所述初始会议记录进行处理得到最终会议记录。
为实现上述目的,本发明还提供一种电子装置,该电子装置包括:存储器及处理器,其特征在于,所述存储器上存储自动生成会议记录程序,所述自动生成会议记录程序被所述处理器执行,实现如下步骤:
转换步骤:实时获取每一发言者的语音信息,将所述语音信息转换成文本信息并存储于数据库;
映射步骤:根据所述语音信息及预设识别规则对发言者身份信息进行识别,对已识别出身份信息的发言者设置不同的ID编号,建立所述ID编号与所述文本信息的映射关系;及
生成步骤:利用预设第一算法计算出所述文本信息中所有词语的得分,根据所述得分确定所述文本信息的关键词,基于所述关键词及所述映射关系利用预设第二算法生成会议记录,并将所述会议记录以邮件形式发送给预设用户,所述预设第一算法的公式为:
其中,Vi、Vj和Vk表示从所述文本信息中提取的词语节点,S(Vi)表示词语节点Vi的得分,S(Vj)表示词语节点Vj的得分,Wji表示Vi和Vj两个词语节点之间边的权重,Wjk表示Vj和Vk两个词语节点之间边的权重,In(Vi)表示指向词语节点Vi的节点集合,Out(Vj)表示词语节点Vj指向的节点集合,d表示阻尼系数。
优选的,所述转换步骤包括:将所述语音信息输入到预设的动态时间归整模型中,得到每一发言者语音信息对应的文本信息。
优选的,所述映射步骤包括:获取每一发言者语音信息的特征参数,根据该特征参数在预先注册的身份索引表中查找与该特征参数对应的标识,根据所述标识识别出发言者的身份信息。
优选的,所述生成步骤包括:将所述得分由大到小排序,选取排序靠前的预设数量的词语作为所述关键词。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括会议记录生成程序,所述会议记录生成程序被处理器执行时,可实现如上所述会议记录生成方法中的任意步骤。
本发明提出的会议记录生成方法、电子装置及存储介质,解决了会议过程中,不能自动提取和生成会议记录的问题,通过将会议中发言者的语音转换成文本并自动生成会议记录发送给参会人员,提高了会议的效率。
附图说明
图1为本发明电子装置较佳实施例的示意图;
图2为图1中自动生成会议记录程序较佳实施例的模块示意图;
图3为本发明会议记录生成方法较佳实施例的流程图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,为本发明电子装置1较佳实施例的示意图。
该电子装置1包括但不限于:存储器11、处理器12、显示器13及网络接口14。所述电子装置1通过网络接口14连接网络,获取原始数据。其中,所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobilecommunication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述电子装置1的外部存储设备,例如该电子装置1配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述电子装置1的内部存储单元也包括其外部存储设备。本实施例中,存储器11通常用于存储安装于所述电子装置1的操作系统和各类应用软件,例如会议记录生成程序10的程序代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子装置1的总体操作,例如执行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行会议记录生成程序10的程序代码等。
显示器13可以称为显示屏或显示单元。在一些实施例中显示器13可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-EmittingDiode,OLED)触摸器等。显示器13用于显示在电子装置1中处理的信息以及用于显示可视化的工作界面,例如显示数据统计的结果。
网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口),该网络接口14通常用于在所述电子装置1与其它电子设备之间建立通信连接。
图1仅示出了具有组件11-14以及会议记录生成程序10的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,所述电子装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
该电子装置1还可以包括射频(Radio Frequency,RF)电路、传感器和音频电路等等,在此不再赘述。
在上述实施例中,处理器12执行存储器11中存储的会议记录生成程序10时可以实现如下步骤:
转换步骤:实时获取每一发言者的语音信息,将所述语音信息转换成文本信息并存储于数据库;
映射步骤:根据所述语音信息及预设识别规则对发言者身份信息进行识别,对已识别出身份信息的发言者设置不同的ID编号,建立所述ID编号与所述文本信息的映射关系;及
生成步骤:利用预设第一算法计算出所述文本信息中所有词语的得分,根据所述得分确定所述文本信息的关键词,基于所述关键词及所述映射关系利用预设第二算法生成会议记录,并将所述会议记录以邮件形式发送给预设用户,所述预设第一算法的公式为:
其中,Vi、Vj和Vk表示从所述文本信息中提取的词语节点,S(Vi)表示词语节点Vi的得分,S(Vj)表示词语节点Vj的得分,Wji表示Vi和Vj两个词语节点之间边的权重,Wjk表示Vj和Vk两个词语节点之间边的权重,In(Vi)表示指向词语节点Vi的节点集合,Out(Vj)表示词语节点Vj指向的节点集合,d表示阻尼系数。
关于上述步骤的详细介绍,请参照下述图2关于会议记录生成程序10实施例的程序模块图以及图3关于会议记录生成方法实施例的流程图的说明。
在其他实施例中,所述会议记录生成程序10可以被分割为多个模块,该多个模块被存储于存储器12中,并由处理器13执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。
参照图2所示,为图1中会议记录生成程序10一实施例的程序模块图。在本实施例中,所述会议记录生成程序10可以被分割为:初始化模块110、监测模块120及切换模块130。
转换模块110,用于实时获取每一发言者的语音信息,将所述语音信息转换成文本信息并存储于数据库。
在本实施例中,可以利用诸如具有录音功能的终端设备(例如,话筒、麦克风)或者具有录像功能的录像设备(例如,数码摄像机)等的声音采集装置来对会议进行记录,以获取该会议的语音信息(例如,录音或录像)。其中,该语音信息的音频格式例如可以为mp3、wma、wav等。具体的,当终端设备一侧的发言者开始发言时,该终端设备通过声音采集装置(例如麦克风)采集语音内容。此外,还可利用语音端点检测技术分辨出发言者语音中的语音信号和非语音信号,去除无效的语音片段和噪音,确定每个有效语音片段的开始和结束端点,有利于提高后续语音识别的准确度。
将获取的会议中各个发言者的语音信息输入到预设的动态时间归整模型(Dynamic Time Warping,DTW)中,得到各个发言者的语音信息对应的文本信息。具体的,针对获取的语音信息,可从该语音信息中提取出指定参数,并将这些参数作为预设的DTW模型的输入参数进行输入,而预设的DTW模型则可根据该输入参数,输出该语音信息对应的文本信息。需要说明的是,可将语音信息转换为文本信息的模型除DTW模型外,也可以是其他的语音识别模型,例如:BLSTM模型或LSTM模型。而DTW模型在对语音信息实施转换之前,通常都需要大量的训练样本进行训练,因此,在本实施例中,可预先对该DTW模型进行训练,具体的训练过程包括:预先采集预设数量的语音样本信息以及每个语音样本信息对应的文本样本信息,然后针对每个语音样本信息,将该语音样本信息输入到该预设的DTW模型中,并通过该DTW模型得到该语音样本信息对应的文本信息,在得到该语音样本信息对应的文本信息后,可将该文本信息与该语音信息对应的文本样本信息进行比对,并根据比对的结果,对该DTW模型进行调整。经大量语音样本信息训练后的DTW模型可准确的将语音信息转换为相应的文本信息,进而为后续的会议记录生成工作提供服务。其中,文本格式可以为txt、word、pdf等。
获取的语音信息转换成文本信息后,可实时或定时的发送给数据库,或者,当终端设备这侧的发言者结束一次发言后,才将该语音信息转换的文本信息发送给数据库。
在另一实施例中,可以利用其它语音识别算法对语音信息进行识别分析,例如基于深度全序列卷积神经网络的第三方语音转换工具,将预设时间段(例如:3小时)内的音频数据转换成文本数据。
映射模块120,用于根据所述语音信息及预设识别规则对发言者身份信息进行识别,对已识别出身份信息的发言者设置不同的ID编号,建立所述ID编号与所述文本信息的映射关系。
在本实施例中,首先建立发言者的身份索引表,在该身份索引表中存储了预先注册的特征参数与发言者的标识的对应关系。其中,特征参数可以是发言者语音信息中的语调或音频。当要对发言者的身份进行识别时,从发言者的语音信息中获取该发言者语音信息的特征参数,根据该特征参数在预先注册的身份索引表中查找与该特征参数对应的标识,从而确定出发言者的标识,由此标识即可识别出发言者的身份。如果在身份索引表中没有查找到与特征参数对应的标识,则根据该特征参数生成该发言者标识,并将该特征参数与该标识的对应关系存储在身份索引表中。识别出发言者的身份之后,为已经识别出身份信息的发言者设置对应的ID编号,并将该ID编号与发言者语音信息转换的文本信息建立映射关系。
会议终端根据特征参数确定发言者的标识还可以采取另一种方式,即根据特征参数生成发言者模型,将该发言者模型与对应的标识存储在数据库中的身份索引表中。在提取到特征参数之后,会议终端将该特征参数与身份索引表中的发言者模型进行比较,并得到匹配得分。如果匹配得分达到预设分数,则表明索引表中存在该特征参数对应的发言者模型,由此可得到发言者标识,确认发言者身份。
在另一施例中,对语音信息发言者的身份进行识别,还可以采用隐马尔科夫模型(Hidden Markov Model,HMM)。具体的,针对获取的语音信息,可从该语音信息中提取出指定参数,并将这些参数作为预设的HMM模型的输入参数进行输入,而预设的HMM模型可根据该输入参数,输出该语音信息对应发言者身份信息。
生成模块130,用于利用预设第一算法计算出所述文本信息中所有词语的得分,根据所述得分确定所述文本信息的关键词,基于所述关键词及所述映射关系利用预设第二算法生成会议记录,并将所述会议记录以邮件形式发送给预设用户。
所述预设第一算法的公式为:
其中,Vi、Vj和Vk表示从所述文本信息中提取的词语节点,S(Vi)表示词语节点Vi的得分,S(Vj)表示词语节点Vj的得分,Wji表示Vi和Vj两个词语节点之间边的权重,Wjk表示Vj和Vk两个词语节点之间边的权重,In(Vi)表示指向词语节点Vi的节点集合,Out(Vj)表示词语节点Vj指向的节点集合,d表示阻尼系数。
在本实施例中,可以采用Text Rank算法提取每一发言者的语音信息对应文本的关键词,Text Rank算法是一种用于文本的基于图的排序算法。其基本思想来源于PageRank算法,通过把文本分割成若干组成单元(例如:单词、句子)并建立图模型,对文本中的重要的词语进行排序,利用文本本身的信息即可实现关键词提取。将TextRank算法表示为一个有向有权图G=(V,E),由节点集合V和边集合E组成,E是V×V的子集。可得知节点Vi的得分公式为:
其中,Vi、Vj和Vk表示从所述文本信息中提取的词语节点,S(Vi)表示词语节点Vi的得分,S(Vj)表示词语节点Vj的得分,Wji表示Vi和Vj两个词语节点之间边的权重,Wjk表示Vj和Vk两个词语节点之间边的权重,In(Vi)表示指向词语节点Vi的节点集合,Out(Vj)表示词语节点Vj指向的节点集合,d表示阻尼系数。
具体地,将文本中的每个词语作为上述公式中的节点,对文本中的每个句子进行分词和词性标注处理,只保留指定词性的词语(例如:名词、动词、形容词)。构建候选关键词图G=(V,E),其中V由保留的指定词性的词语组成,然后采用共现关系(Co-Occurrence)构造任意两个词语之间的边,两个词语之间存在边,仅当这两个的词语在长度为K的窗口中共现,K表示窗口大小。根据上述公式,将节点之间边的权重的初值设为“1”,迭代传播权重计算各指定性词语的得分,将计算出的指定性词语的得分从大到小排序,可选取得分排前十的词语作为关键词。还可以利用投票的原理,将边作为词语之间的互相投票,经过不断迭代,每个词语的得票数会趋于稳定,然后对词语的得票数由大到小排序,可选取得票数排前六的词语作为关键词,将得到的关键词在原始文本中进行标记,若形成相邻词组则组合成多词关键词。
之后,根据得到的关键词及每个发言者对应文本信息生成初始会议记录,再根据自然语言处理(Natural Language Processing,NLP)技术对初始会议记录进行进一步处理,以生成语义更通顺的会议记录。其中,会议记录的文本格式可以为txt、word、pdf等,基于NLP自然语言处理技术建立的NLP分析引擎可以预先搜集并存储有大量的真实语料,从而可以实现对会议记录中的字词中有瑕疵或不规范的语言行为进行修订,然后将会议记录以邮件的形式发送给参会人员。
在另一实施例中,可以采用TF-IDF算法提取关键词。预先统计在文本中出现的所有词的词频,计算出IDF值,然后再对要提取关键词的文章或句子的每个词计算出TF值。其中,TF=(词语在文章中出现次数)/(文章总词数),将IDF值与TF值相乘,得到TF-ID值,TF-ID值可以评估字词对于发言文本中的重要程度,TF-ID值越大表示作为关键词的优先级越高。在进行TF-IDF计算时,通过对词频(TF)与逆文档频率(IDF)得出某个字词的TF-IDF值,若TF-IDF值越大,该字词对发言文本的重要性越高。因此可以将TF-IDF值排在最前面的几个字词作为该发言文本的关键词。例如,将TF-IDF值排在前五的字词作为该发言文本的关键词。
参照图3所示,是本发明会议记录生成方法较佳实施例的流程图。
步骤S10:实时获取每一发言者的语音信息,将所述语音信息转换成文本信息并存储于数据库;
在本实施例中,可以利用诸如具有录音功能的终端设备(例如,话筒、麦克风)或者具有录像功能的录像设备(例如,数码摄像机)等的声音采集装置来对会议进行记录,以获取该会议的语音信息(例如,录音或录像)。其中,该语音信息的音频格式例如可以为mp3、wma、wav等。具体的,当终端设备一侧的发言者开始发言时,该终端设备通过声音采集装置(例如麦克风)采集语音内容。此外,还可利用语音端点检测技术分辨出发言者语音中的语音信号和非语音信号,去除无效的语音片段和噪音,确定每个有效语音片段的开始和结束端点,有利于提高后续语音识别的准确度。
之后,将获取的会议中各个发言者的语音信息输入到预设的动态时间归整模型(Dynamic Time Warping,DTW)中,得到各个发言者的语音信息对应的文本信息。具体的,针对获取的语音信息,可从该语音信息中提取出指定参数,并将这些参数作为预设的DTW模型的输入参数进行输入,而预设的DTW模型则可根据该输入参数,输出该语音信息对应的文本信息。需要说明的是,可将语音信息转换为文本信息的模型除DTW模型外,也可以是其他的语音识别模型,例如:BLSTM模型或LSTM模型。而DTW模型在对语音信息实施转换之前,通常都需要大量的训练样本进行训练,因此,在本实施例中,可预先对该DTW模型进行训练,具体的训练过程包括:预先采集预设数量的语音样本信息以及每个语音样本信息对应的文本样本信息,然后针对每个语音样本信息,将该语音样本信息输入到该预设的DTW模型中,并通过该DTW模型得到该语音样本信息对应的文本信息,在得到该语音样本信息对应的文本信息后,可将该文本信息与该语音信息对应的文本样本信息进行比对,并根据比对的结果,对该DTW模型进行调整。经大量语音样本信息训练后的DTW模型可准确的将语音信息转换为相应的文本信息,进而为后续的会议记录生成工作提供服务。其中,文本格式可以为txt、word、pdf等。
获取的语音信息转换成文本信息后,可实时或定时的发送给数据库,或者,当终端设备这侧的发言者结束一次发言后,才将该语音信息转换的文本信息发送给数据库。
在另一实施例中,可以利用其它语音识别算法对语音信息进行识别分析,例如基于深度全序列卷积神经网络的第三方语音转换工具,将预设时间段(例如:3小时)内的音频数据转换成文本数据。
步骤S20:根据所述语音信息及预设识别规则对发言者身份信息进行识别,对已识别出身份信息的发言者设置不同的ID编号,建立所述ID编号与所述文本信息的映射关系。
在本实施例中,首先建立发言者的身份索引表,在该身份索引表中存储了预先注册的特征参数与发言者的标识的对应关系。其中,特征参数可以是发言者语音信息中的语调或音频。当要对发言者的身份进行识别时,从发言者的语音信息中获取该发言者语音信息的特征参数,根据该特征参数在预先注册的身份索引表中查找与该特征参数对应的标识,从而确定出发言者的标识,由此标识即可识别出发言者的身份。如果在身份索引表中没有查找到与特征参数对应的标识,则根据该特征参数生成该发言者标识,并将该特征参数与该标识的对应关系存储在身份索引表中。
识别出发言者的身份之后,为发言者设置对应的ID编号,并将该ID编号与发言者语音信息转换的文本信息建立映射关系。
会议终端根据特征参数确定发言者的标识还可以采取另一种方式,即根据特征参数生成发言者模型,将该发言者模型与对应的标识存储在数据库中的身份索引表中。在提取到特征参数之后,会议终端将该特征参数与身份索引表中的发言者模型进行比较,并得到匹配得分。如果匹配得分达到预设分数,则表明索引表中存在该特征参数对应的发言者模型,由此可得到发言者标识,确认发言者身份。
在另一施例中,对语音信息发言者的身份进行识别,还可以采用隐马尔科夫模型(Hidden Markov Model,HMM),具体的,针对获取的语音信息,可从该语音信息中提取出指定参数,并将这些参数作为预设的HMM模型的输入参数进行输入,而预设的HMM模型可根据该输入参数,输出该语音信息对应发言者身份信息。
步骤S30:利用预设第一算法计算出所述文本信息中所有词语的得分,根据所述得分确定所述文本信息的关键词,基于所述关键词及所述映射关系利用预设第二算法生成会议记录,并将所述会议记录以邮件形式发送给预设用户。
所述预设第一算法的公式为:
其中,Vi、Vj和Vk表示从所述文本信息中提取的词语节点,S(Vi)表示词语节点Vi的得分,S(Vj)表示词语节点Vj的得分,Wji表示Vi和Vj两个词语节点之间边的权重,Wjk表示Vj和Vk两个词语节点之间边的权重,In(Vi)表示指向词语节点Vi的节点集合,Out(Vj)表示词语节点Vj指向的节点集合,d表示阻尼系数。
在本实施例中,可以采用Text Rank算法提取每一发言者的语音信息对应文本的关键词,Text Rank算法是一种用于文本的基于图的排序算法。其基本思想来源于PageRank算法,通过把文本分割成若干组成单元(例如:单词、句子)并建立图模型,对文本中的重要的词语进行排序,利用文本本身的信息即可实现关键词提取。将TextRank算法表示为一个有向有权图G=(V,E),由点集合V和边集合E组成,E是V×V的子集。点Vi的得分公式为:
其中,Vi、Vj和Vk表示从所述文本信息中提取的词语节点,S(Vi)表示词语节点Vi的得分,S(Vj)表示词语节点Vj的得分,Wji表示Vi和Vj两个词语节点之间边的权重,Wjk表示Vj和Vk两个词语节点之间边的权重,In(Vi)表示指向词语节点Vi的节点集合,Out(Vj)表示词语节点Vj指向的节点集合,d表示阻尼系数。
具体地,将文本中的每个词语作为上述公式中的节点,对文本中的每个句子进行分词和词性标注处理,只保留指定词性的词语(例如:名词、动词、形容词)。构建候选关键词图G=(V,E),其中V由保留的指定词性的词语组成,然后采用共现关系(Co-Occurrence)构造任意两个词语之间的边,两个词语之间存在边,仅当这两个的词语在长度为K的窗口中共现,K表示窗口大小。根据上述公式,将节点之间边的权重的初值设为“1”,迭代传播权重计算各指定性词语的得分,将计算出的指定性词语的得分从大到小排序,可选取得分排前十的词语作为关键词。还可以利用投票的原理,将边作为词语之间的互相投票,经过不断迭代,每个词语的得票数会趋于稳定,然后对词语的得票数由大到小排序,可选取得票数排前六的词语作为关键词,将得到的关键词在原始文本中进行标记,若形成相邻词组则组合成多词关键词。
之后,根据得到的关键词及每个发言者对应文本信息生成初始会议记录,再根据自然语言处理(Natural Language Processing,NLP)技术对初始会议记录进行进一步处理,以生成语义更通顺的会议记录。其中,会议记录的文本格式可以为txt、word、pdf等,基于NLP自然语言处理技术建立的NLP分析引擎可以预先搜集并存储有大量的真实语料,从而可以实现对会议记录中的字词中有瑕疵或不规范的语言行为进行修订,然后将会议记录以邮件的形式发送给参会人员。
在另一实施例中,可以采用TF-IDF算法提取关键词。预先统计在文本中出现的所有词的词频,计算出IDF值,然后再对要提取关键词的文章或句子的每个词计算出TF值。其中,TF=(词语在文章中出现次数)/(文章总词数),将IDF值与TF值相乘,得到TF-ID值,TF-ID值可以评估字词对于发言文本中的重要程度,TF-ID值越大表示作为关键词的优先级越高。在进行TF-IDF计算时,通过对词频(TF)与逆文档频率(IDF)得出某个字词的TF-IDF值,若TF-IDF值越大,该字词对发言文本的重要性越高。因此可以将TF-IDF值排在最前面的几个字词作为该发言文本的关键词。例如,将TF-IDF值排在前五的字词作为该发言文本的关键词。
此外,本发明实施例还提出一种计算机可读存储介质,该计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括会议记录生成程序10,所述会议记录生成程序10被处理器执行时实现如下操作:
转换步骤:实时获取每一发言者的语音信息,将所述语音信息转换成文本信息并存储于数据库;
映射步骤:根据所述语音信息及预设识别规则对发言者身份信息进行识别,对已识别出身份信息的发言者设置不同的ID编号,建立所述ID编号与所述文本信息的映射关系;及
生成步骤:利用预设第一算法计算出所述文本信息中所有词语的得分,根据所述得分确定所述文本信息的关键词,基于所述关键词及所述映射关系利用预设第二算法生成会议记录,并将所述会议记录以邮件形式发送给预设用户,所述预设第一算法的公式为:
其中,Vi、Vj和Vk表示从所述文本信息中提取的词语节点,S(Vi)表示词语节点Vi的得分,S(Vj)表示词语节点Vj的得分,Wji表示Vi和Vj两个词语节点之间边的权重,Wjk表示Vj和Vk两个词语节点之间边的权重,In(Vi)表示指向词语节点Vi的节点集合,Out(Vj)表示词语节点Vj指向的节点集合,d表示阻尼系数。
本发明之计算机可读存储介质的具体实施方式与上述会议记录生成方法的具体实施方式大致相同,在此不再赘述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,电子装置,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种会议记录生成方法,应用于电子装置,其特征在于,所述方法包括:
转换步骤:实时获取每一发言者的语音信息,将所述语音信息转换成文本信息并存储于数据库;
映射步骤:根据所述语音信息及预设识别规则对发言者身份信息进行识别,对已识别出身份信息的发言者设置不同的ID编号,建立所述ID编号与所述文本信息的映射关系;及
生成步骤:利用预设第一算法计算出所述文本信息中所有词语的得分,根据所述得分确定所述文本信息的关键词,基于所述关键词及所述映射关系利用预设第二算法生成会议记录,并将所述会议记录以邮件形式发送给预设用户,所述预设第一算法的公式为:
其中,Vi、Vj和Vk表示从所述文本信息中提取的词语节点,S(Vi)表示词语节点Vi的得分,S(Vj)表示词语节点Vj的得分,Wji表示Vi和Vj两个词语节点之间边的权重,Wjk表示Vj和Vk两个词语节点之间边的权重,In(Vi)表示指向词语节点Vi的节点集合,Out(Vj)表示词语节点Vj指向的节点集合,d表示阻尼系数。
2.如权利要求1所述的会议记录生成方法,其特征在于,所述转换步骤包括:将所述语音信息输入到预设的动态时间归整模型中,得到每一发言者语音信息对应的文本信息。
3.如权利要求1所述的会议记录生成方法,其特征在于,所述映射步骤包括:获取每一发言者语音信息的特征参数,根据该特征参数在预先注册的身份索引表中查找与该特征参数对应的标识,根据所述标识识别出发言者的身份信息。
4.如权利要求1所述的会议记录生成方法,其特征在于,所述生成步骤包括:将所述得分由大到小排序,选取排序靠前的预设数量的词语作为所述关键词。
5.如权利要求1至4任意一项所述的会议记录生成方法,其特征在于,所述生成步骤包括:根据所述关键词及映射关系生成初始会议记录,利用自然语言算法对所述初始会议记录进行处理得到最终会议记录。
6.一种电子装置,该电子装置包括存储器及处理器,其特征在于,所述存储器上存储会议记录生成程序,所述会议记录生成程序被所述处理器执行,实现如下步骤:
转换步骤:实时获取每一发言者的语音信息,将所述语音信息转换成文本信息并存储于数据库;
映射步骤:根据所述语音信息及预设识别规则对发言者身份信息进行识别,对已识别出身份信息的发言者设置不同的ID编号,建立所述ID编号与所述文本信息的映射关系;及
生成步骤:利用预设第一算法计算出所述文本信息中所有词语的得分,根据所述得分确定所述文本信息的关键词,基于所述关键词及所述映射关系利用预设第二算法生成会议记录,并将所述会议记录以邮件形式发送给预设用户,所述预设第一算法的公式为:
其中,Vi、Vj和Vk表示从所述文本信息中提取的词语节点,S(Vi)表示词语节点Vi的得分,S(Vj)表示词语节点Vj的得分,Wji表示Vi和Vj两个词语节点之间边的权重,Wjk表示Vj和Vk两个词语节点之间边的权重,In(Vi)表示指向词语节点Vi的节点集合,Out(Vj)表示词语节点Vj指向的节点集合,d表示阻尼系数。
7.如权利要求6所述的电子装置,其特征在于,所述转换步骤包括:将所述语音信息输入到预设的动态时间归整模型中,得到每一发言者语音信息对应的文本信息。
8.如权利要求6所述的电子装置,其特征在于,所述映射步骤包括:获取每一发言者语音信息的特征参数,根据该特征参数在预先注册的身份索引表中查找与该特征参数对应的标识,根据所述标识识别出发言者的身份信息。
9.如权利要求6所述的电子装置,其特征在于,所述生成步骤包括:将所述得分由大到小排序,选取排序靠前的预设数量的词语作为所述关键词。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括会议记录生成程序,所述会议记录生成程序被处理器执行时,可实现如权利要求1至5中任一项所述会议记录生成方法的步骤。
CN201910298388.0A 2019-04-15 2019-04-15 会议记录生成方法、电子装置及存储介质 Pending CN110134756A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910298388.0A CN110134756A (zh) 2019-04-15 2019-04-15 会议记录生成方法、电子装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910298388.0A CN110134756A (zh) 2019-04-15 2019-04-15 会议记录生成方法、电子装置及存储介质

Publications (1)

Publication Number Publication Date
CN110134756A true CN110134756A (zh) 2019-08-16

Family

ID=67569867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910298388.0A Pending CN110134756A (zh) 2019-04-15 2019-04-15 会议记录生成方法、电子装置及存储介质

Country Status (1)

Country Link
CN (1) CN110134756A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717031A (zh) * 2019-10-15 2020-01-21 南京摄星智能科技有限公司 一种智能会议纪要生成方法和系统
CN110837557A (zh) * 2019-11-05 2020-02-25 北京声智科技有限公司 摘要生成方法、装置、设备及介质
CN111159346A (zh) * 2019-12-27 2020-05-15 深圳物控智联科技有限公司 基于意图识别的智能答疑方法、服务器及存储介质
CN111405230A (zh) * 2020-02-14 2020-07-10 视联动力信息技术股份有限公司 会议信息处理方法、装置、电子设备及存储介质
CN111429914A (zh) * 2020-03-30 2020-07-17 招商局金融科技有限公司 麦克风控制方法、电子装置及计算机可读存储介质
CN111626061A (zh) * 2020-05-27 2020-09-04 深圳前海微众银行股份有限公司 会议记录生成方法、装置、设备及可读存储介质
CN111723205A (zh) * 2020-06-18 2020-09-29 中国银行股份有限公司 会议纪要处理方法、装置及会议纪要处理设备
CN112017632A (zh) * 2020-09-02 2020-12-01 浪潮云信息技术股份公司 一种自动化会议记录生成方法
CN112466308A (zh) * 2020-11-25 2021-03-09 北京明略软件系统有限公司 一种基于语音识别的辅助面试方法及系统
CN112802460A (zh) * 2021-04-14 2021-05-14 中国科学院国家空间科学中心 一种基于语音处理的空间环境预报系统
US11961524B2 (en) 2021-05-27 2024-04-16 Honeywell International Inc. System and method for extracting and displaying speaker information in an ATC transcription

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置
CN108022583A (zh) * 2017-11-17 2018-05-11 平安科技(深圳)有限公司 会议纪要生成方法、应用服务器及计算机可读存储介质
WO2018108284A1 (en) * 2016-12-15 2018-06-21 Telefonaktiebolaget Lm Ericsson (Publ) Audio recording device for presenting audio speech missed due to user not paying attention and method thereof
CN108922530A (zh) * 2018-07-23 2018-11-30 广州维纳斯家居股份有限公司 智能升降桌会议记录方法、装置、智能升降桌及存储介质
CN109388701A (zh) * 2018-08-17 2019-02-26 深圳壹账通智能科技有限公司 会议记录生成方法、装置、设备和计算机存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置
WO2018108284A1 (en) * 2016-12-15 2018-06-21 Telefonaktiebolaget Lm Ericsson (Publ) Audio recording device for presenting audio speech missed due to user not paying attention and method thereof
CN108022583A (zh) * 2017-11-17 2018-05-11 平安科技(深圳)有限公司 会议纪要生成方法、应用服务器及计算机可读存储介质
CN108922530A (zh) * 2018-07-23 2018-11-30 广州维纳斯家居股份有限公司 智能升降桌会议记录方法、装置、智能升降桌及存储介质
CN109388701A (zh) * 2018-08-17 2019-02-26 深圳壹账通智能科技有限公司 会议记录生成方法、装置、设备和计算机存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王迈 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717031B (zh) * 2019-10-15 2021-05-18 南京摄星智能科技有限公司 一种智能会议纪要生成方法和系统
CN110717031A (zh) * 2019-10-15 2020-01-21 南京摄星智能科技有限公司 一种智能会议纪要生成方法和系统
CN110837557A (zh) * 2019-11-05 2020-02-25 北京声智科技有限公司 摘要生成方法、装置、设备及介质
CN110837557B (zh) * 2019-11-05 2023-02-17 北京声智科技有限公司 摘要生成方法、装置、设备及介质
CN111159346A (zh) * 2019-12-27 2020-05-15 深圳物控智联科技有限公司 基于意图识别的智能答疑方法、服务器及存储介质
CN111405230A (zh) * 2020-02-14 2020-07-10 视联动力信息技术股份有限公司 会议信息处理方法、装置、电子设备及存储介质
CN111405230B (zh) * 2020-02-14 2023-06-09 视联动力信息技术股份有限公司 会议信息处理方法、装置、电子设备及存储介质
CN111429914A (zh) * 2020-03-30 2020-07-17 招商局金融科技有限公司 麦克风控制方法、电子装置及计算机可读存储介质
CN111626061A (zh) * 2020-05-27 2020-09-04 深圳前海微众银行股份有限公司 会议记录生成方法、装置、设备及可读存储介质
CN111723205A (zh) * 2020-06-18 2020-09-29 中国银行股份有限公司 会议纪要处理方法、装置及会议纪要处理设备
CN111723205B (zh) * 2020-06-18 2023-07-14 中国银行股份有限公司 会议纪要处理方法、装置及会议纪要处理设备
CN112017632A (zh) * 2020-09-02 2020-12-01 浪潮云信息技术股份公司 一种自动化会议记录生成方法
CN112466308A (zh) * 2020-11-25 2021-03-09 北京明略软件系统有限公司 一种基于语音识别的辅助面试方法及系统
CN112802460A (zh) * 2021-04-14 2021-05-14 中国科学院国家空间科学中心 一种基于语音处理的空间环境预报系统
US11961524B2 (en) 2021-05-27 2024-04-16 Honeywell International Inc. System and method for extracting and displaying speaker information in an ATC transcription

Similar Documents

Publication Publication Date Title
CN110134756A (zh) 会议记录生成方法、电子装置及存储介质
CN110675288B (zh) 智能辅助审判方法、装置、计算机设备及存储介质
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
US11790933B2 (en) Systems and methods for manipulating electronic content based on speech recognition
CN108197282B (zh) 文件数据的分类方法、装置及终端、服务器、存储介质
CN110335612A (zh) 基于语音识别的会议记录生成方法、装置及存储介质
US9477747B2 (en) Method and apparatus for acquiring hot topics
CN105956053B (zh) 一种基于网络信息的搜索方法及装置
CN107679082A (zh) 问答搜索方法、装置以及电子设备
CN108664599B (zh) 智能问答方法、装置、智能问答服务器及存储介质
CN109360550A (zh) 语音交互系统的测试方法、装置、设备和存储介质
US20040163035A1 (en) Method for automatic and semi-automatic classification and clustering of non-deterministic texts
CN112468659B (zh) 应用于电话客服的质量评价方法、装置、设备及存储介质
CN101533401A (zh) 声音数据检索系统以及声音数据的检索方法
CN110287313A (zh) 一种风险主体的确定方法及服务器
CN107665188B (zh) 一种语义理解方法及装置
CN110287364B (zh) 语音搜索方法、系统、设备及计算机可读存储介质
CN109299277A (zh) 舆情分析方法、服务器及计算机可读存储介质
CN111159987A (zh) 数据图表绘制方法、装置、设备和计算机可读存储介质
CN108197319A (zh) 一种基于时频局部能量的特征点的音频检索方法和系统
KR20150041592A (ko) 피호출자의 전자 디바이스에서 연락처 정보를 업데이트하는 방법 및 전자 디바이스
CN108777804B (zh) 媒体播放方法及装置
CN110059179A (zh) 一种基于深度学习的歌曲文本命名实体识别方法
CN115357765A (zh) 数据搜索方法、装置、电子设备以及存储介质
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190816

RJ01 Rejection of invention patent application after publication