CN109473103A - 一种会议纪要生成方法 - Google Patents

一种会议纪要生成方法 Download PDF

Info

Publication number
CN109473103A
CN109473103A CN201811366154.7A CN201811366154A CN109473103A CN 109473103 A CN109473103 A CN 109473103A CN 201811366154 A CN201811366154 A CN 201811366154A CN 109473103 A CN109473103 A CN 109473103A
Authority
CN
China
Prior art keywords
filled
voice
words
content
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811366154.7A
Other languages
English (en)
Inventor
梅琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Miaozhen Systems Information Technology Co Ltd
Original Assignee
Shanghai Jiuyue Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiuyue Digital Technology Co Ltd filed Critical Shanghai Jiuyue Digital Technology Co Ltd
Priority to CN201811366154.7A priority Critical patent/CN109473103A/zh
Publication of CN109473103A publication Critical patent/CN109473103A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明实施例涉及通信技术领域,公开了一种会议纪要生成方法。本发明中,会议纪要生成方法包括以下步骤:获取多个语音录制终端录制的语音文件,为每个语音录制终端录制的所述语音文件添加不同于其他语音录制终端的标识信息;获取预先存储的会议纪要模板,所述会议纪要模板包括待填写栏位;从每个所述语音文件中提取与所述待填写栏位对应的待填写内容;将所述标识信息和所述待填写内容填入所述待填写栏位中,生成会议纪要。本发明提供的会议纪要生成方法,能够提高会议纪要的输出效率。

Description

一种会议纪要生成方法
技术领域
本发明实施例涉及通信技术领域,特别涉及一种会议纪要生成方法。
背景技术
会议纪要是用于记录会议要点、以便于存档和传递会议信息的重要手段,随着信息时代的到来,会议纪要被越来越多的企业重视。比较传统的实现会议纪要的方式就是安排书记员进行会议过程的记录,比较依赖于书记员的专注力,书记员开小差会出现漏记的现象。随着科技的发展,涌现出了录音笔、拾音器等产品帮助记录会议的录音,而后通过对录音的回放进行关键点的人工提炼,解决了会议纪要漏记的情况。
发明人发现现有技术中至少存在如下问题:录音笔、拾音器等产品仅仅是进行录音,仍然需要人根据录音的回放,手动整理出会议纪要,会议纪要的输出效率不高。
发明内容
本发明实施方式的目的在于提供一种会议纪要生成方法,能够提高会议纪要的输出效率。
为解决上述技术问题,本发明的实施方式提供了一种会议纪要生成方法,包括:获取多个语音录制终端录制的语音文件,为每个语音录制终端录制的所述语音文件添加不同于其他语音录制终端的标识信息;获取预先存储的会议纪要模板,所述会议纪要模板包括待填写栏位;从每个所述语音文件中提取与所述待填写栏位对应的待填写内容;将所述标识信息和所述待填写内容填入所述待填写栏位中,生成会议纪要。
本发明实施方式相对于现有技术而言,通过获取多个语音录制终端录制的语音文件,为每个语音录制终端录制的所述语音文件添加不同于其他语音录制终端的标识信息,为不同与会人员配备不同语音录制终端后,可以通过标识信息实现不同声音来源的区分,通过从每个所述语音文件中提取与所述待填写栏位对应的待填写内容,从而实现了语音文件中关键点的自动提炼,通过将所述标识信息和所述待填写内容填入所述待填写栏位中,实现了将语音文件中的重点内容及对应的来源填入会议纪要模板中的自动操作,即会议纪要的自动生成,提高了会议纪要的输出效率。
另外,所述语音文件包含语音录制的时间,所述将所述标识信息和所述待填写内容填入所述的待填写栏位中,具体包括:根据所述时间对所述待填写内容排列顺序;将所述待填写内容、以及与所述待填写内容对应的所述标识信息依照所述顺序填入所述的待填写栏位中。如此设置,能够将所述待填写内容按照实际会议过程中的事件发生顺序填写到所述待填写栏位中,使得会议纪要的内容更加真实地反应会议过程,便于后续的对所述会议纪要的查阅和理解。
另外,所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容,具体包括:将所述语音文件转换为文本文件;从所述会议纪要模板中提取待填写栏位的标题信息;从所述文本文件中提取与所述标题信息对应的待填写内容。如此设置,使得该方法的内容提取操作能够以标题信息为依据,当不同会纪要模板中待填写栏位的标题信息不同时,该方法能够从不同的会议纪要模板中准确的辨别出需要提取的待填写内容,生成与所述会议纪要模板匹配的会议纪要,从而能够适用于不同的会议纪要模板,提高了会议纪要模板的灵活性。
另外,从所述文本文件中提取与所述标题信息对应的待填写内容,具体为:对所述文本文件进行分词处理,得到预处理文件;计算所述预处理文件中的词的权重以及词与词之间的关联性;根据词的权重以及词与词之间的关联性,对所述预处理文件中的词进行分类或聚类处理;从分类或聚类处理后的词中获取与所述标题信息对应的待填写内容。
另外,所述计算所述预处理文件中的词的权重以及词与词之间的关联性,具体包括:标注所述预处理文件中词的词性;删除所述预处理文件中的停顿词;计算删除停顿词之后的所述预处理文件中的词的权重以及词与词之间的关联性。通过删除所述文本文件中没有实际意义的停顿词,缩短了所述文本本件的长度,从而提高了后续文本处理的效率。
另外,所述计算删除停顿词之后的所述预处理文件中的词的权重以及词与词之间的关联性,具体包括:根据TF-IDF算法计算删除停顿词之后的所述预处理文件中的预设词性的词的权重;根据PMI算法计算删除停顿词之后的所述预处理文件中的预设词性的词之间的关联性。
另外,所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容之前,还包括:对所述语音文件进行语音活动检测;所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容,具体为;将从每个语音活动检测后的语音文件中提取与所述待填写栏位对应的待填写内容。如此设置,能够从所述语音文件中识别和消除长时间的静音期,从而提高所述语音文件的识别率。
另外,所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容之前,还包括:对所述语音文件进行降噪处理;所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容,具体为:从降噪处理后的每个所述语音文件中提取与所述待填写栏位对应的待填写内容。如此设置,能够消除所述语音文件中的杂音,从而提高所述语音文件的识别率。
另外,所述标识信息为用于登录所述语音录制终端以录制所述语音文件的登录信息。通过将登录所述语音录制终端的登录信息作为识别信息,只需将所述语音录制终端临时配备给与会人员使用、而无需每人配备一个专用的所述语音录制终端,实现所述语音录制终端的通用,节省了成本。
另外,所述标识信息为录制所述语音文件的所述语音录制终端的设备识别码。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本发明第一实施方式提供的会议纪要生成方法的流程图;
图2是图1所示步骤S3的子步骤流程图;
图3是图2所示步骤S33的子步骤流程图;
图4是本发明第二实施方式提供的会议纪要生成方法的流程图
图5是本发明第三实施方式提供的服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本发明而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本发明所要求保护的技术方案。
本发明的第一实施方式涉及一种会议纪要生成方法,如图1、图2、图3所示,包括以下步骤:
S11:获取多个语音录制终端录制的语音文件,为每个语音录制终端录制的所述语音文件添加不同于其他语音录制终端的标识信息。
具体的说,在本步骤中,利用一个带有识别码(条形码、二维码等)的语音设备,使用手机等移动终端扫描该识别码,当所述识别码识别成功时,移动终端跳转至用户登陆界面,用户输入用于登录该系统的账号或授权第三方账号登录(例如,使用微信登录),当登录成功时,发送信息至语音设备以触发语音设备开始录制语音文件。
可选的,本实施方式中,通过将所述标识信息加入所述语音文件的文件名、以实现为每个语音录制终端录制的所述语音文件添加不同于其他语音录制终端的标识信息,如此设置,简单便捷,可执行性强。
本实施方式中,所述标识信息为用于登录所述语音录制终端以录制所述语音文件的登录信息,进一步的,登录信息可以为用户登录账号、用户姓名等,即标识信息可以为用户登录账号、用户姓名等,通过将登录所述语音录制终端的登录信息作为识别信息,只需将所述语音录制终端临时配备给与会人员使用进行临时绑定、而无需每人配备一个专用的所述语音录制终端,实现所述语音录制终端的通用,节省了成本。
可以理解的是,所述标识信息也可以为录制所述语音文件的所述语音录制终端的设备识别码,具体的说,一人(多人)配备一个专用的语音录制设备,并事先获取用户与设备之间的对应关系,从而通过设备识别码来表征用户身份。当然,标识信息也可以为其他的信息,只要能表征用户身份即可。
S12:获取预先存储的会议纪要模板,所述会议纪要模板包括待填写栏位。
具体的说,在本步骤中,会议纪要模板为表格的形式,且会议纪要模板包括待填写栏位、以及待填写栏位的标题信息,标题信息可以为待填写栏位对应的行或列的表头、或者是待填写栏位的属性(例如:设置成“日期”,则该待填写栏位只能填入日期,不能填写其他内容)。
S13:从每个所述语音文件中提取与所述待填写栏位对应的待填写内容。
具体的说,步骤S3具体包括以下子步骤:
S131:将所述语音文件转换为文本文件。
具体的说,在本步骤中,利用ASR技术即自动语音识别技术,将语音文件中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列,生成文本文件。
S132:从所述会议纪要模板中提取待填写栏位的标题信息。
具体的说,在本步骤中,标题信息对应后续将会在文本文件中提取的内容,例如,当所述标题信息为“姓名”,则待填写栏位应该填写“张三、李四”等姓名,所以,在文本文件中就会提取“姓名”相关的内容,当所述标题信息为“主题”,则待填写栏位应该填写本次会议的主题的具体内容,则在文本文件中就会提取与“主题”相关的内容,标题信息还可以为“议题、遗留问题”等,通过从所述会议纪要模板中提取待填写栏位的标题信息,使得该方法的内容提取操作能够以标题信息为依据,当不同会纪要模板中待填写栏位的标题信息不同时,该方法能够从不同的会议纪要模板中准确的辨别出需要提取的待填写内容,生成与所述会议纪要模板匹配的会议纪要,从而能够适用于不同的会议纪要模板(会议纪要模板的格式、内容均可以改变),提高了会议纪要模板的灵活性,便于后续对会议纪要模板的改进。
S133:从所述文本文件中提取与所述标题信息对应的待填写内容。
具体的说,步骤S33具体包括以下子步骤:
S1331:对所述文本文件进行分词处理,得到预处理文件。
具体的说,在本步骤中,分词处理就是搜索引擎针对用户提交查询的关键词串进行的查询处理后、根据用户的关键词串用各种匹配方法进行分词的一种技术,主要分为字符串匹配的分词方法、词义分词法以及统计分词法。
S1332:计算所述预处理文件中的词的权重以及词与词之间的关联性;
具体的说,在本步骤中,首先,标注所述预处理文件中词的词性,例如名词、形容词、停顿词、语气词、连接词等,接着,删除所述预处理文件中的停顿词,计算删除停顿词之后的所述预处理文件中的词的权重以及词与词之间的关联性,本实施方式中,根据TF-IDF算法计算删除停顿词之后的所述预处理文件中的预设词性的词的权重;根据PMI算法计算删除停顿词之后的所述预处理文件中的预设词性的词之间的关联性。
其中,TF-IDF算法是一种用于信息检索与数据挖掘的常用加权技术,TF意思是词频,IDF意思是逆文本频率指数,它是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
可以理解的是,也可以删除所述预处理文件中的其他没有实际意义的词,例如,语气词等,当然,也可以不删除所述预处理文件中的词、直接计算所述预处理文件中的词的权重以及词与词之间的关联性。
S1333:根据词的权重以及词与词之间的关联性,对所述预处理文件中的词进行分类或聚类处理。
具体的说,在本步骤中,聚类为将物理或抽象对象的集合分成由类似的对象组成的多个类的过程,由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异;分类是指按照种类、等级或性质分别归类。本实施方式为先定义几个类别,对所述预处理文件中的词进行分类,没有被分到这几个类别的中的词再进行聚类,从而提高词的分类聚类效率。当然,也可以对所述预处理文件中的词只进行分类、或只进行聚类。
S1334:从分类或聚类处理后的词中获取与所述标题信息对应的待填写内容。
S14:将所述标识信息和所述待填写内容填入所述待填写栏位中,生成会议纪要。
具体的说,在本步骤中,根据所述时间对所述待填写内容排列顺序,将所述待填写内容、以及与所述待填写内容对应的所述标识信息依照所述顺序填入所述的待填写栏位中,如此设置,能够将所述待填写内容按照实际会议过程中的事件发生顺序填写到所述待填写栏位中,使得会议纪要的内容更加真实地反应会议过程,便于后续的对所述会议纪要的查阅和理解。
本发明实施方式相对于现有技术而言,通过获取多个语音录制终端录制的语音文件,为每个语音录制终端录制的所述语音文件添加不同于其他语音录制终端的标识信息,为不同与会人员配备不同语音录制终端后,可以通过标识信息实现不同声音来源的区分,通过从每个所述语音文件中提取与所述待填写栏位对应的待填写内容,从而实现了语音文件中关键点的自动提炼,通过将所述标识信息和所述待填写内容填入所述待填写栏位中,实现了将语音文件中的重点内容及对应的来源填入会议纪要模板中的自动操作,即会议纪要的自动生成,提高了会议纪要的输出效率,并且,避免了通过人工记录会纪要时的主观因素,提高了会议纪要的准确性。
本发明的第二实施方式涉及一种会议纪要生成方法。第二实施方式与第一实施方式大致相同,主要区别之处在于:在本发明第二实施方式中,所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容之前,还包括:对所述语音文件进行语音活动检测;所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容,具体为;将从每个语音活动检测后的语音文件中提取与所述待填写栏位对应的待填写内容,如此设置,能够从所述语音文件中识别和消除长时间的静音期,从而提高所述语音文件的识别率。
可选的,所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容之前,还包括:对所述语音文件进行降噪处理;所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容,具体为:从降噪处理后的每个所述语音文件中提取与所述待填写栏位对应的待填写内容。如此设置,能够消除所述语音文件中的杂音,从而提高所述语音文件的识别率。
具体的说,本实施方式提供的会议纪要生成方法,如图4所示,包括以下步骤:
S21:获取多个语音录制终端录制的语音文件,为每个所述语音文件添加标识信息。
S22:获取预先存储的会议纪要模板,所述会议纪要模板包括待填写栏位。
S23:对所述语音文件进行降噪处理。
具体的说,在本步骤中,通过对所述语音文件进行降噪处理,从而消除所述所述语音文件中的杂音,从而提高所述语音文件的识别率。
S24:对所述语音文件进行语音活动检测。
具体的说,在本步骤中,语音活动检测又称语音端点检测、语音边界检测,其目的是从声音信号流里识别和消除长时间的静音期,也就是说,通过对所述语音文件进行语音活动检测,消去了所述语音文件中没有录到声音的部分(静音期),从而降低了语音编码速率、节省了通信带宽、减少移动设备能耗、提高识别率的作用。
S25:从每个所述语音文件中提取与所述待填写栏位对应的待填写内容。
S26:将所述标识信息和所述待填写内容填入所述待填写栏位中,生成会议纪要。
本实施方式中的步骤S21、S22、S25、S526与第一实施方式中的步骤S11、S12、S13、S14类似,为了避免重复,此处不再赘述。
值得一提的是,本实施方式中的步骤S22与步骤S23、S24之间没有固定的先后顺序,均可以达到类似的技术效果。本实施方式中,步骤S23在步骤S24之前,通过先进行降噪处理,从而能够提高后续的语音活动检测的准确性,进而提高会议纪要的质量。
本发明实施方式相对于现有技术而言,通过获取多个语音录制终端录制的语音文件,为每个语音录制终端录制的所述语音文件添加不同于其他语音录制终端的标识信息,为不同与会人员配备不同语音录制终端后,可以通过标识信息实现不同声音来源的区分,通过从每个所述语音文件中提取与所述待填写栏位对应的待填写内容,从而实现了语音文件中关键点的自动提炼,通过将所述标识信息和所述待填写内容填入所述待填写栏位中,实现了将语音文件中的重点内容及对应的来源填入会议纪要模板中的自动操作,即会议纪要的自动生成,提高了会议纪要的输出效率,并且,避免了通过人工记录会纪要时的主观因素,提高了会议纪要的准确性;同时,通过对所述语音文件进行语音活动检测,从所述语音文件中识别和消除长时间的静音期,从而提高了所述语音文件的识别率;另外,通过对所述语音文件进行降噪处理,消除所述语音文件中的杂音,从而提高了所述语音文件的识别率。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第三实施方式涉及一种服务器,如图5所示,包括:
至少一个处理器301;以及,
与至少一个处理器301通信连接的存储器302;其中,
存储器302存储有可被至少一个处理器301执行的指令,指令被至少一个处理器301执行,以使至少一个处理器301能够执行会议纪要生成方法。
其中,存储器302和处理器301采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器301和存储器302的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器301处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器301。
处理器301负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器302可以被用于存储处理器301在执行操作时所使用的数据。
本发明第四实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (10)

1.一种会议纪要生成方法,其特征在于,包括:
获取多个语音录制终端录制的语音文件,为每个语音录制终端录制的所述语音文件添加不同于其他语音录制终端的标识信息;
获取预先存储的会议纪要模板,所述会议纪要模板包括待填写栏位;
从每个所述语音文件中提取与所述待填写栏位对应的待填写内容;
将所述标识信息和所述待填写内容填入所述待填写栏位中,生成会议纪要。
2.根据权利要求1所述的会议纪要生成方法,其特征在于,所述语音文件包含语音录制的时间,所述将所述标识信息和所述待填写内容填入所述的待填写栏位中,具体包括:
根据所述时间对所述待填写内容排列顺序;
将所述待填写内容、以及与所述待填写内容对应的所述标识信息依照所述顺序填入所述的待填写栏位中。
3.根据权利要求1所述的会议纪要生成方法,其特征在于,所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容,具体包括:
将所述语音文件转换为文本文件;
从所述会议纪要模板中提取待填写栏位的标题信息;
从所述文本文件中提取与所述标题信息对应的待填写内容。
4.根据权利要求3所述的会议纪要生成方法,其特征在于,从所述文本文件中提取与所述标题信息对应的待填写内容,具体为:
对所述文本文件进行分词处理,得到预处理文件;
计算所述预处理文件中的词的权重以及词与词之间的关联性;
根据词的权重以及词与词之间的关联性,对所述预处理文件中的词进行分类或聚类处理;
从分类或聚类处理后的词中获取与所述标题信息对应的待填写内容。
5.根据权利要求4所述的会议纪要生成方法,其特征在于,所述计算所述预处理文件中的词的权重以及词与词之间的关联性,具体包括:
标注所述预处理文件中词的词性;
删除所述预处理文件中的停顿词;
计算删除停顿词之后的所述预处理文件中的词的权重以及词与词之间的关联性。
6.根据权利要求5所述的会议纪要生成方法,其特征在于,所述计算删除停顿词之后的所述预处理文件中的词的权重以及词与词之间的关联性,具体包括:
根据TF-IDF算法计算删除停顿词之后的所述预处理文件中的预设词性的词的权重;
根据PMI算法计算删除停顿词之后的所述预处理文件中的预设词性的词之间的关联性。
7.根据权利要求3所述的会议纪要生成方法,其特征在于,所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容之前,还包括:
对所述语音文件进行语音活动检测;
所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容,具体为;
将从每个语音活动检测后的语音文件中提取与所述待填写栏位对应的待填写内容。
8.根据权利要求1所述的会议纪要生成方法,其特征在于,所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容之前,还包括:
对所述语音文件进行降噪处理;
所述从每个所述语音文件中提取与所述待填写栏位对应的待填写内容,具体为:
从降噪处理后的每个所述语音文件中提取与所述待填写栏位对应的待填写内容。
9.根据权利要求1所述的会议纪要生成方法,其特征在于,所述标识信息为用于登录所述语音录制终端以录制所述语音文件的登录信息。
10.根据权利要求1所述的会议纪要生成方法,其特征在于,所述标识信息为录制所述语音文件的所述语音录制终端的设备识别码。
CN201811366154.7A 2018-11-16 2018-11-16 一种会议纪要生成方法 Pending CN109473103A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811366154.7A CN109473103A (zh) 2018-11-16 2018-11-16 一种会议纪要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811366154.7A CN109473103A (zh) 2018-11-16 2018-11-16 一种会议纪要生成方法

Publications (1)

Publication Number Publication Date
CN109473103A true CN109473103A (zh) 2019-03-15

Family

ID=65673761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811366154.7A Pending CN109473103A (zh) 2018-11-16 2018-11-16 一种会议纪要生成方法

Country Status (1)

Country Link
CN (1) CN109473103A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298252A (zh) * 2019-05-30 2019-10-01 平安科技(深圳)有限公司 会议纪要生成方法、装置、计算机设备及存储介质
CN110533382A (zh) * 2019-07-24 2019-12-03 阿里巴巴集团控股有限公司 会议纪要的处理方法、装置、服务器及可读存储介质
CN110543559A (zh) * 2019-06-28 2019-12-06 谭浩 生成访谈报告的方法、计算机可读存储介质和终端设备
WO2021143034A1 (zh) * 2020-01-19 2021-07-22 腾讯科技(深圳)有限公司 文档生成方法、装置、电子设备及存储介质
CN113642294A (zh) * 2021-08-13 2021-11-12 百度在线网络技术(北京)有限公司 用于生成会议纪要的方法、装置、设备、介质和产品
CN113885741A (zh) * 2021-06-08 2022-01-04 北京字跳网络技术有限公司 一种多媒体处理方法、装置、设备及介质
TWI767189B (zh) * 2020-02-15 2022-06-11 淡江大學 工作日誌登載系統
CN114912463A (zh) * 2022-07-13 2022-08-16 南昌航天广信科技有限责任公司 会议自动记录方法、系统、可读存储介质及计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014130613A (ja) * 2014-02-06 2014-07-10 Nomura Research Institute Ltd 談話要約生成システムおよび談話要約生成プログラム
CN105786797A (zh) * 2016-02-23 2016-07-20 北京云知声信息技术有限公司 一种基于语音输入的信息处理方法及装置
CN105810207A (zh) * 2014-12-30 2016-07-27 富泰华工业(深圳)有限公司 会议记录装置及其自动生成会议记录的方法
CN108022583A (zh) * 2017-11-17 2018-05-11 平安科技(深圳)有限公司 会议纪要生成方法、应用服务器及计算机可读存储介质
CN108628906A (zh) * 2017-03-24 2018-10-09 北京京东尚科信息技术有限公司 短文本模板挖掘方法、装置、电子设备和可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014130613A (ja) * 2014-02-06 2014-07-10 Nomura Research Institute Ltd 談話要約生成システムおよび談話要約生成プログラム
CN105810207A (zh) * 2014-12-30 2016-07-27 富泰华工业(深圳)有限公司 会议记录装置及其自动生成会议记录的方法
CN105786797A (zh) * 2016-02-23 2016-07-20 北京云知声信息技术有限公司 一种基于语音输入的信息处理方法及装置
CN108628906A (zh) * 2017-03-24 2018-10-09 北京京东尚科信息技术有限公司 短文本模板挖掘方法、装置、电子设备和可读存储介质
CN108022583A (zh) * 2017-11-17 2018-05-11 平安科技(深圳)有限公司 会议纪要生成方法、应用服务器及计算机可读存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298252A (zh) * 2019-05-30 2019-10-01 平安科技(深圳)有限公司 会议纪要生成方法、装置、计算机设备及存储介质
CN110543559A (zh) * 2019-06-28 2019-12-06 谭浩 生成访谈报告的方法、计算机可读存储介质和终端设备
CN110533382A (zh) * 2019-07-24 2019-12-03 阿里巴巴集团控股有限公司 会议纪要的处理方法、装置、服务器及可读存储介质
WO2021143034A1 (zh) * 2020-01-19 2021-07-22 腾讯科技(深圳)有限公司 文档生成方法、装置、电子设备及存储介质
TWI767189B (zh) * 2020-02-15 2022-06-11 淡江大學 工作日誌登載系統
CN113885741A (zh) * 2021-06-08 2022-01-04 北京字跳网络技术有限公司 一种多媒体处理方法、装置、设备及介质
CN113642294A (zh) * 2021-08-13 2021-11-12 百度在线网络技术(北京)有限公司 用于生成会议纪要的方法、装置、设备、介质和产品
CN113642294B (zh) * 2021-08-13 2023-08-04 百度在线网络技术(北京)有限公司 用于生成会议纪要的方法、装置、设备、介质和产品
CN114912463A (zh) * 2022-07-13 2022-08-16 南昌航天广信科技有限责任公司 会议自动记录方法、系统、可读存储介质及计算机设备

Similar Documents

Publication Publication Date Title
CN109473103A (zh) 一种会议纪要生成方法
US10795939B2 (en) Query method and apparatus
US11423888B2 (en) Predicting and learning carrier phrases for speech input
US20220214775A1 (en) Method for extracting salient dialog usage from live data
CN1723455B (zh) 基于语义关联的内容检索
US7415409B2 (en) Method to train the language model of a speech recognition system to convert and index voicemails on a search engine
US20200196028A1 (en) Video highlight recognition and extraction tool
CN108334489B (zh) 文本核心词识别方法和装置
US20080181390A1 (en) Method of analyzing conversational transcripts
WO2014031458A1 (en) Translating natural language utterances to keyword search queries
WO2023024975A1 (zh) 文本处理方法、装置和电子设备
WO2021063089A1 (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
CN106713111B (zh) 一种添加好友的处理方法、终端及服务器
CN111753551A (zh) 基于词向量生成模型的信息生成方法和装置
CN113806588A (zh) 搜索视频的方法和装置
CN112183051B (zh) 智能语音随访方法、系统、计算机设备、存储介质及程序产品
CN114003682A (zh) 一种文本分类方法、装置、设备及存储介质
CN112084338A (zh) 一种文档自动归类方法、系统、计算机设备及存储介质
CN111555960A (zh) 信息生成的方法
CN108846098B (zh) 一种信息流摘要生成及展示方法
US9747891B1 (en) Name pronunciation recommendation
CN114168715A (zh) 生成目标数据集的方法、装置、设备及存储介质
KR102222637B1 (ko) 감성 분석 장치, 이를 포함하는 대화형 에이전트 시스템, 감성 분석을 수행하기 위한 단말 장치 및 감성 분석 방법
CN112567364A (zh) 知识信息创建支援装置
CN110597765A (zh) 一种大零售呼叫中心异构数据源数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190930

Address after: Room 321008, Building 5, Courtyard 1, Futong East Street, Chaoyang District, Beijing 100020

Applicant after: The second hand information technology Co. Ltd.

Address before: Room 313 A116, Room 3, No. 200, Changjiang West Road, Baoshan District, Shanghai, 2004

Applicant before: Shanghai Jiuyue Digital Technology Co., Ltd.

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190315