CN114450747B - 用于基于音频文件更新文档的方法、系统和计算机可读介质 - Google Patents

用于基于音频文件更新文档的方法、系统和计算机可读介质 Download PDF

Info

Publication number
CN114450747B
CN114450747B CN202080068839.2A CN202080068839A CN114450747B CN 114450747 B CN114450747 B CN 114450747B CN 202080068839 A CN202080068839 A CN 202080068839A CN 114450747 B CN114450747 B CN 114450747B
Authority
CN
China
Prior art keywords
topic
text
audio
segment
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202080068839.2A
Other languages
English (en)
Other versions
CN114450747A (zh
Inventor
C.贝勒
A.乔希
H.K.西瓦斯瓦米
S.纳姆比亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN114450747A publication Critical patent/CN114450747A/zh
Application granted granted Critical
Publication of CN114450747B publication Critical patent/CN114450747B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/328Management therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/197Version control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种基于已捕获与文本文档相关的音频会议的音频文件修改和利用文本文档的方法。一个或多个处理器和/或用户将文本文档分割成基于话题的文本片段。处理器接收与文本文档相关的音频文件,将音频文件转换为文本,并将基于话题的文本片段中的基于特定话题的文本片段与基于话题的音频片段中的基于特定话题的音频片段匹配。响应于识别基于特定话题的文本片段中的内容与基于特定话题的音频片段中的内容之间的差异,处理器和/或用户用基于特定话题的音频片段中的内容更新基于特定话题的文本片段以创建文本文档的更新版本。

Description

用于基于音频文件更新文档的方法、系统和计算机可读介质
技术领域
本发明涉及由相关会议的音频记录更新的文档的领域。更具体地,本发明涉及基于音频会议的音频文件来更新用于控制设备的文档的领域。
背景技术
诸如源代码列表、大会记录、设备的操作手册等的文本文档通常非常冗长。手动更新此类文本文档是一项耗时且容易出错的工作。此外,如果更改是基于随后的口头谈话,则目前没有将这种口头性的更改合并到适当的文本文档中的有用方法。因此,本发明的一个或多个实施例快速和/或自动地添加来自口头会议的更新(例如来自口头会议的音频记录)以更新文本文档。
因此,本领域需要解决上述问题。
发明内容
从第一方面来看,本发明提供了一种更新文档的方法,该方法包括:将文本文档分割成基于话题的文本片段;由一个或多个处理器接收与文本文档相关的音频文件;由一个或多个处理器将音频文件转换为文本以创建音频文件的文本表示;将音频文件的文本表示分割成基于话题的音频片段;将基于话题的文本片段中的基于特定话题的文本片段与基于话题的音频片段中的基于特定话题的音频片段进行匹配,其中基于话题的文本片段中的基于特定话题的文本片段和基于话题的音频片段中的基于特定话题的音频片段属于同一话题;识别基于特定话题的文本片段中的内容与基于特定话题的音频片段中的内容之间的差异;基于基于特定话题的文本片段中的内容与基于特定话题的音频片段中的内容之间的差异,确定基于特定话题的音频片段满足新颖标准;以及响应于确定基于特定话题的音频片段满足新颖标准,用基于特定话题的音频片段中的内容更新基于特定话题的文本片段中的内容以创建文本文档的更新版本。
从另一方面来看,本发明提供了一种用于更新文档的计算机系统,该系统包括一个或多个处理器、一个或多个计算机可读存储器和一个或多个计算机可读非暂态存储介质,以及存储在一个或多个计算机可读非暂时性存储介质中的至少一个上的、用于通过一个或多个计算机可读存储器中的至少一个由一个或多个处理器中的至少一个执行的程序指令,所存储的程序指令被执行以执行一种方法,包括:将文本文档分割成基于话题的文本片段,其中,文本文档控制设备的操作;接收与文本文档相关的音频文件;将音频文件转换为文本以创建音频文件的文本表示;将音频文件的文本表示分割成基于话题的音频片段;将基于话题的文本片段中的基于特定话题的文本片段与基于话题的音频片段中的基于特定话题的音频片段进行匹配,其中基于话题的文本片段中的基于特定话题的文本片段和基于话题的音频片段中的基于音频片段属于同一话题;识别基于特定话题的文本片段中的内容与基于特定话题的音频片段中的内容之间的差异;基于基于特定话题的文本片段中的内容与基于特定话题的音频片段中的内容之间的差异,确定基于特定话题的音频片段满足新颖标准;响应于确定基于特定话题的音频片段满足新颖标准,用基于特定话题的音频片段中的内容更新基于特定话题的文本片段中的内容以创建文本文档的更新版本;以及利用文本文档的更新版本来执行修改设备操作的动作。
从另一方面来看,本发明提供了一种用于更新文档的计算机程序产品,该计算机程序产品包括计算机可读存储介质,该计算机可读存储介质可由处理电路读取并存储用于由处理电路执行以执行用于执行本发明的步骤方法的指令。
从另一方面来看,本发明提供了一种存储在计算机可读介质上并可加载到数字计算机的内部存储器中的计算机程序,计算机程序包括软件代码部分,用于当所述程序在计算机上运行时执行本发明的步骤。
从另一方面来看,本发明提供了一种计算机程序产品,该计算机程序产品包括计算机可读存储介质,其中该计算机可读存储介质具有随其体现的程序代码,其中该计算机可读存储介质本身不是瞬态信号,并且其中该程序代码是可读的并可由处理器执行以执行一种方法,该方法包括:将文本文档分割成基于话题的文本片段,其中文本文档控制设备的操作;接收与文本文档相关的音频文件;将音频文件转换为文本以创建音频文件的文本表示;将音频文件的文本表示分割成基于话题的音频片段;将基于话题的文本片段中的基于特定话题的文本片段与基于话题的音频片段中的基于特定话题的音频片段进行匹配,其中基于话题的文本片段中的基于特定话题的文本片段和基于话题的音频片段中的基于音频片段属于同一话题;识别基于特定话题的文本片段中的内容与基于特定话题的音频片段中的内容之间的差异;基于基于特定话题的文本片段中的内容与基于特定话题的音频片段中的内容之间的差异,确定基于特定话题的音频片段满足新颖标准;响应于确定基于特定话题的音频片段满足新颖标准,用基于特定话题的音频片段中的内容更新基于特定话题的文本片段中的内容以创建文本文档的更新版本;以及利用文本文档的更新版本来执行修改设备的操作的动作。
本发明实施例的方法基于已经捕获关于文本文档控制的设备的音频会议的音频文件来修改和利用文本文档。一个或多个处理器和/或用户将文本文档分割成基于话题的文本片段,其中文本文档控制设备的操作。处理器接收与文本文档相关的音频文件,将音频文件转换为文本以创建音频文件的文本表示。处理器和/或用户将音频文件的文本表示分割为基于话题的音频片段,然后将基于话题的文本片段中的基于特定话题的文本片段与基于话题的音频片段中的基于特定话题的音频片段进行匹配,其中基于话题的文本片段中的基于特定话题的文本片段和基于话题的音频片段中的基于特定话题的音频片段属于同一话题。处理器和/或用户识别基于特定话题的文本片段中的内容与基于特定话题的音频片段中的内容之间的差异,并基于基于特定话题的文本片段中的内容与基于特定话题的音频片段中的内容之间的差异,确定基于特定话题的音频片段的新颖标准。响应于识别基于特定话题的文本片段中的内容与基于特定话题的音频片段中的内容之间的差异,并且响应于确定基于特定话题的音频片段满足新颖标准,处理器和/或用户用基于特定话题的音频片段中的内容更新基于特定话题的文本片段中的内容,以创建文本文档的更新版本。处理器和 /或用户然后利用文本文档的更新版本来执行修改设备的操作的动作。
在一个或多个实施例中,本文描述的方法通过计算机程序产品和/或计算机系统的执行来执行。
附图说明
现在将仅通过示例的方式参考优选实施例来描述本发明,如下图所示:
图1描绘了本发明在各个实施例在其中实施的示例性系统和网络;
图2说明了本发明的一个或多个组件的高级概述;
图3描绘了如在本发明的一个或多个实施例中使用的示例性深度神经网络;
图4是根据本发明的一个或多个实施例执行的一个或多个步骤的高级流程图;
图5描绘了根据本发明实施例的云计算环境;
图6描绘了根据本发明实施例的云计算机环境的抽象模型层。
具体实施方式
在一个或多个实施例中,本发明是任何可能的技术细节集成级别的系统、方法和/或计算机程序产品。在一个或多个实施例中,计算机程序产品包括计算机可读存储介质(或介质),其上具有计算机可读程序指令,用于使处理器执行本发明的各方面。
计算机可读存储介质可以是可以保留和存储指令以供指令执行装置使用的有形装置。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非详尽列表包括以下内容:便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器。只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能磁盘(DVD)、记忆棒、软盘、诸如穿孔卡或其上记录有指令凹槽中的凸起结构的机械编码设备,以及前述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为瞬态信号本身,例如无线电波或其他自由传播的电磁波、传播通过波导或其他传输介质的电磁波(例如,通过光纤电缆的光脉冲) 或通过电线传输的电信号。
本文所述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者经由网络(例如,因特网、局域网、广域网和/或无线网)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令并且转发计算机可读程序指令以在相应计算/处理设备内的计算机可读存储介质中存储。
一个或多个实施例中,用于执行本发明的操作的计算机可读程序指令包括汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据,或以一种或多种编程语言的任何组合编写的源代码或目标代码,包括面向对象的编程语言,如Java、Smalltalk、C++等,以及传统的过程编程语言,如“C”编程语言或类似的编程语言。在一个或多个实施例中,计算机可读程序指令完全在用户计算机上、部分在用户计算机上、作为独立软件包、部分在用户计算机上和部分在远程计算机上或完全在远程计算机上执行,或服务器。在后一种情况和一个或多个实施例中,远程计算机通过包括局域网 (LAN)或广域网(WAN)的任何类型的网络连接到用户的计算机,或者连接到外部计算机(例如,通过使用因特网服务提供商的因特网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以个性化电子电路,以便执行本发明的各个方面。
在此参考根据本发明的实施例的方法、装置(系统)和计算机程序产品的流程图和/ 或框图来描述本发明的各方面。应当理解,流程图和/或框图的每个框,以及流程图和/或框图中的框的组合,可以通过计算机可读程序指令来实现。
在一个或多个实施例中,这些计算机可读程序指令被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得通过计算机或其他可编程数据处理设备的处理器,创建用于实现流程图和/或框图的框中指定的功能/动作的装置。在一个或多个实施例中,这些计算机可读程序指令还存储在计算机可读存储介质中,在一个或多个实施例中,计算机可读存储介质引导计算机、可编程数据处理装置和/或其他设备以特定方式运行,使得其中存储有指令的计算机可读存储介质包括制造物品,该制造物品包括实现流程图和/或框图的框中指定的功能/动作的各方面的指令。
在一个或多个实施例中,计算机可读程序指令也被加载到计算机、其他可编程数据处理设备或其他设备上,以使得在计算机、其他可编程设备或其他设备上执行一系列操作步骤产生计算机实现的过程,使得在计算机、其他可编程设备或其他设备上执行的指令实现流程图和/或框图的框中指定的功能/动作。
图中的流程图和框图说明了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的体系结构、功能和操作。在这点上,流程图或框图中的每个框代表一个模块、段或指令的一部分,其包括用于实现指定逻辑功能的一个或多个可执行指令。在一些替代实施方式中,框中标注的功能不按图中标注的顺序出现。例如,连续显示的两个框实际上基本上是同时执行的,或者这些框有时以相反的顺序执行,这取决于所涉及的功能。还应注意,在本发明的一个或多个实施例中,框图和/或流程图说明的每个框,以及框图和/或流程图说明中的框的组合,由执行特定功能或动作或执行专用硬件和计算机指令组合的基于专用硬件的系统实现。
现在参考附图,特别是图1,描绘了可以由本发明和/或在本发明的实现中使用的示例性系统和网络的框图。注意,所示的计算机102及其内部的示例性架构的一些或全部,包括所示的硬件和软件,可以由图1中所示的人工智能124和/或软件部署服务器150和/或文本文档服务器152和/或物理设备154和/或控制器156和/或音频文件服务器158、图2 中所示的文本更新和利用逻辑(TUUL)202、和/或图3中所示的深度神经网络324中所示的一个或多个神经元/节点使用。
示例性计算机102包括耦合到系统总线106的处理器104。处理器104可以利用一个或多个处理器,每个处理器具有一个或多个处理器核。驱动/支持显示器110的视频适配器108也耦合到系统总线106。系统总线106通过总线桥112耦合到输入/输出(I/O)总线 114。I/O接口116连接到I/O总线114。I/O接口116提供与包括键盘118、鼠标120、媒体托盘122(其可以包括诸如CD-ROM驱动器、多媒体接口等)、人工智能124和外部USB端口126的各种I/O设备的通信。虽然连接到I/O接口116的端口的格式对于计算机体系结构领域的技术人员来说可以是任何已知的,但在一个实施例中,这些端口中的一些或全部是通用串行总线(USB)端口。
如图所示,计算机102也能用连接到网络128的网络接口130与人工智能124和/或软件部署服务器150和/或文本文档服务器152和/或物理设备154(通过控制器156)和/或音频文件服务器158进行通信。网络接口130是硬件网络接口,例如网络接口卡(NIC)等。网络128可以是诸如互联网的外部网络,或者是诸如以太网或虚拟专用网络(VPN)的内部网络。下面给出物理设备154的一个或多个示例。
硬盘驱动器接口132也耦合到系统总线106。硬盘驱动器接口132与硬盘驱动器134连接。在一个实施例中,硬盘驱动器134填充也耦合到系统总线106的系统存储器136。系统存储器被定义为计算机102中最低级别的易失性存储器。易失性存储器包括附加的更高级别的易失性存储器(未示出),包括但不限于高速缓冲存储器、寄存器和缓冲器。填充系统存储器136的数据包括计算机102的操作系统(OS)138和应用程序144。
OS 138包括壳(shell)140,用于提供对诸如应用程序144之类的资源的透明用户访问。概括来说,壳140是在用户和操作系统之间提供解释器和接口的程序。更具体地,壳140执行输入到命令行用户界面的或来自文件的命令。因此,也称为命令处理器的壳140,通常是操作系统软件层次结构的最高级别并用作命令解释器。壳提供系统提示,解释由键盘、鼠标或其他用户输入媒体输入的命令,并将解释的命令发送到操作系统的适当较低级别(例如,内核142)进行处理。注意,虽然壳140是基于文本的、面向行的用户界面,但本发明同样很好地支持其他用户界面模式,例如图形、语音、手势等。
如图所示,OS 138还包括内核142,内核142包括OS 138的较低级别的功能,包括提供OS 138的其他部分和应用程序144所需的基本服务,包括存储器管理、进程和任务管理、磁盘管理,以及鼠标和键盘管理。
应用程序144包括渲染器,示例性地显示为浏览器146。浏览器146包括程序模块和指令,使得万维网(WWW)客户端(即计算机102)能够用超文本传输协议(HTTP)进行消息传送,向互联网发送和接收网络消息,从而能够与软件部署服务器150和其他计算机系统进行通信。
计算机102的系统存储器(以及部署服务器150的系统存储器的软件)中的应用程序 144还包括文档修改和利用逻辑(DMUL)148。DMUL 148包括用于实现下文描述的过程—包括在图2-4中描述的过程—的代码。在一个实施例中,计算机102能够从软件部署服务器150下载DMUL 148,包括按需下载,其中DMUL 148中的代码直到需要执行时才下载。进一步注意,在本发明的一个实施例中,软件部署服务器150执行与本发明相关联的所有功能(包括执行DMUL 148),从而使计算机102不必使用其自身的内部计算资源来执行 DMUL 148。
注意,计算机102中描绘的硬件元件并非旨在穷举,而是代表性的,以突出本发明所需的基本组件。例如,计算机102可以包括替代的存储器存储设备,例如磁带、数字多功能盘(DVD)、伯努利盒等。这些和其他变化旨在落入本发明的范围内。
本发明的一个或多个实施例通过1)摄取文本文档,从会议的音频记录更新文本文档。该过程通过以下方式执行:将文本文档分割成小单元(例如关于特定主题的页面或段落);分析小单元的话题和关键字信息;在搜索引擎中对分析的文档进行索引。
系统2)通过以下方式识别候选更新:在用语音转文本(STT)程序转换音频会议之后跟踪音频会议;存储一个窗口期的转录语音(例如,1-2个话语)以创建候选更新;分析候选更新的话题/关键字。
系统3)确定候选更新对更新该文档是否足够相关/重要。在本发明的一个或多个实施例中,总更新分数是a)发言者的重要性与b)内容特定的分数的综合。
所述a)发言者的重要性,是由发言者的角色确定的。例如,如果大会是关于对控制特定设备的软件进行更改,则作为负责特定设备的操作员或工程师的参会者的重要性排名,高于另一名不熟悉和/或从不操作特定设备的参会者。
在本发明的一个实施例中,发言者的身份和/或角色,用语音和/或面部识别以及身份: 角色匹配来确定。例如,如果音频文件是音频/视频文件的一部分,则通过应用将面部点映射到已知人的数据库等的任何已知面部识别系统来使用发言者的面部识别。类似地,如果音频文件只是一个音频文件,则通过将发言者的音频剪辑(例如,使用创建发言者的单词的数字文件的快速傅里叶变换—FFT)与已知的发言者说过的相似词语的数据库进行比较来实现发言者识别,从而识别特定的发言者。
b)用内容分数来识别候选更新内的语言的固有重要性。例如,大会期间的口语诸如“更改特定设备的操作”的口语比“我们要点午餐吗?”得分更高。
如果不同的段落是关于不同的话题的,则发言者的重要性也将经常改变。也就是说,在讨论特定设备的操作时,谈论操作特定设备的工程师的排名/得分将在会计师之上,但如果话题是关于更改购买/维护该特定设备的合同的定价条款的,则会计师的排名/得分将在工程师之上。
在本发明的一个或多个实施例中,特定文本片段的更新分数(update score)是内容_ 分数(content_score)的发言者加权的版本:更新_分数(update_score)=发言者重要性 (speaker_importance)*内容_分数。
也就是说,更新原始文本文档中的特定段落的决定,基于的是音频文件中的发言者对考虑更改的文本文档中的段落的主题而言的重要性以及该特定段落中内容的重要性的组合。例如,如果发言者被评分为对文本文档中的特定段落不重要,那么系统将忽略他/她关于该特定段落所说的任何内容。同样,如果特定段落本身被评分为不重要(例如,操作手册中的一般营销信息、不影响特定设备操作的源代码等),则不会更改。然而,如果说话人重要性与内容分数之乘积足够高,那么将修改/更新文本文档中的该段落。
因此,如果生产操作员在大会上提出更改设备的操作参数的口头建议(发言者重要性),并且对操作参数的这些更改将极大地影响该设备的功能(内容_分数),那么,由于更新_分数较高,将进行更改。
因此,如果候选更新的更新_分数足够高(高于阈值),则可以用其来自动地触发更新,也可以由人员进行审查,以决定推动更新。如果做出更新决定,则系统将识别用于文本文档中的相关部分的候选更新。否则,丢弃候选更新,系统处理返回到识别候选更新的步骤2)。
系统4)通过以下方式识别文本文档中的相关部分:基于所分析的候选更新生成搜索查询;将该查询提交到搜索索引;从该索引中检索相关段落(小单元)(段落搜索);将检索到的段落呈现给文档更新者(自动模块或人类用户)。也就是说,文本文档的每个部分 (子单元)都按照每个部分的主题进行识别,从而可以将其与特定参会者对会议所说的音频文件中计分的段落匹配。
然后,系统5)通过以下方式更新和重新索引文本文档:选择以该内容更新的部分(自动地基于上述置信度/更新分数或通过用户手动选择);将新内容与所选择的部分进行比较,看看它是否代表新信息;如果存在新信息,则将该内容添加到该部分;用添加的内容更新该部分的索引(重新索引)。即,一旦识别了音频文件中用于更新文本文档中的特定段落的相关内容,则将该相关内容用于修改该特定段落,并重新索引文本文档以显示修改的位置。
因此,系统基于置信度/更新分数选择文本文档的用该内容更新的一部分。系统用所选的部分的上下文分析、话题/短语检测等技术,将(音频文件中的)新内容与(文本文档中的)所选的部分进行比较,以查看它是否代表新信息,以生成满足新颖标准的信息新颖分数(即,新信息是否提供显著不同的数据以及显著不同的数据是否重要?)。如果音频文件中存在新信息,则将其添加到所选的部分。如果上述更新分数大于预定义的阈值,则这种内容添入/更新是自动的。为所选的部分更新文本文档的索引。在本发明的一个实施例中,索引不仅显示了文本文档的哪些段落已经被更新,而且还显示了索引中的(来自音频文件的)新内容。
因此,本发明的一个或多个实施例确定音频文件中的候选更新是否应导致文档的修改;将候选更新与相关文档部分进行比较,以确定它是否是新信息;仅用候选更新中的新颖信息更新和/或修改相关文档部分;和/或如果文本文档被修改,则实时修改/重新索引文本文档。
现在参考图2,给出了本发明的一个或多个组件的高级概述。
如图2所示,文本更新和利用逻辑(TUUL)202(例如,图1所示的计算机102)从图1中介绍的文本文档服务器152接收文本文档204。TUUL 202将文本文档204分割成多个基于话题的文本片段,包括基于话题的文本片段206、基于话题的文本片段208、基于话题的文本片段210和基于话题的文本片段212。可以理解,虽然出于说明目的描述了四个基于话题的文本片段,但基于话题的文本片段的数量可以多于或少于四个。
在本发明的第一实施例中,TUUL 202最初将文本文档204划分为多个文本片段,然后确定每个文本片段的话题/主题。
在本发明的第二实施例中,TUUL 202检查一个文本部分以确定该部分的上下文/内容 /主题,并继续将相同上下文/内容/主题的后续段落添加到该部分。
也就是说,在第二实施例中,TUUL 202将某个段落识别为与该特定段落的特定主题相关(例如,使用关键字识别、自然语言处理等)。此后,评估紧接在该特定段落之后的后续段落,以确定它们是否是关于同一主题的。如果是这样,那么将这些后续段落包含到最先确定的特定段落中。
然而,在第一实施例中,TUUL 202首先将文本文档204划分为具有预定义性质的片段 (例如,句子、段落、章节等),然后确定每个片段的主题/话题.然后聚合与同一主题/话题相关的片段,以便TUUL 202可以对相关片段进行全局更改/修改。
在第三实施例中,本发明利用第一实施例和第二实施例的组合,以便1)组合关于同一主题的后续段落,以及2)在同一主题下将每个组合的段落与其他段落关联在一起,从而使关联的段落成为被音频文件214中的内容更新的候选。
TUUL 202然后从图1所示的音频文件服务器158检索音频文件214,并将音频文件214分割成基于话题的音频片段216、基于话题的音频片段218、基于话题的音频片段220 和基于话题的音频片段222。
与来自上述文本文档204的文本片段一样,可以理解,虽然出于说明目的示出了四个基于话题的音频片段,但是基于话题的音频片段的数量可以多于或少于四个。
类似于所述的用于将文本文档204划分为多个文本片段的过程,基于主题/话题,将音频文件214按照话题、后续音频片段、音频片段的预定大小等划分为多个音频片段。
然而,在分割音频文件214之前,首先将其转换成文本文档(例如,使用语音到文本的转换过程)。因此,显示为音频文件214的一部分的每个基于话题的音频片段实际上是音频片段的文本转换。这样,TUUL 202将音频文件214的这些文本版本划分为具有预定义性质的片段(例如,句子、段落、章节等),然后确定每个片段的主题/话题。然后聚合与同一主题/话题相关的片段,以便TUUL 202可以对相关片段进行全局更改/修改。
与文本文档204的分割一样,音频文件214的文本转换可以组合关于同一主题的后续段落,和/或在同一主题下将每个组合的段落与其他段落关联在一起,从而使关联的音频片段成为用于更新文本文档204中的文本片段的候选。
如上所述,在本发明的实施例中,各种音频片段与某些文本片段的关联,不仅基于它们在相应音频文件214和文本文档204中的位置,而且基于它们的匹配主题、相关性、重要性等。
例如,假设基于话题的文本片段206是与控制设备A相关的文本(例如,操作手册中的源代码等);基于话题的文本片段208是与控制设备B相关的文本;基于话题的文本片段210是描述设备A和/或设备B的尺寸、颜色等的库存描述语言;基于话题的文本片段 212描述设备A和/或设备B的货币成本。
进一步假设,为了说明的目的(而不是为了限制本发明的范围),基于话题的音频片段216是在关于如何控制设备A和设备B的会议/大会期间人物W(例如第一操作员或设计工程师)的口头陈述的文本转换;基于话题的音频片段218是人物X(例如会计师)关于设备A成本的口头陈述的文本转换;基于话题的音频片段220是人物Y(例如第二操作员或设计工程师)关于如何控制设备B的口头陈述的文本转换;基于话题的音频片段222 是人物Z询问(音频文件214首先被捕获的大会/会议)各方想去哪里吃午饭的口头陈述的文本转换。
进一步假设TUUL 202已确定基于话题的音频片段216和基于话题的文本片段206以及基于话题的文本片段208与相同的主题/话题(即控制设备A和/或设备B)相关。因此,如本文所述,TUUL 202将根据人物W的角色和以及基于文本片段206和/或基于话题的文本片段208和/或基于话题的音频片段216的重要性,确定基于话题的音频片段216是修改基于话题的文本片段206以及基于话题的文本片段208的候选。
类似地,TUUL 202将确定基于话题的音频片段218是否是用于修改基于话题的文本片段212的有价值的候选(基于基于话题的音频片段218和基于话题的文本片段212都与设备A和/或设备B成本相关)。
类似地,如果基于话题的音频片段220和基于话题的文本片段208都针对控制设备B,则TUUL 202将确定基于话题的音频片段220是用于更新基于话题的文本片段208的良好候选—假设满足新颖标准(即,改变是值得的、提议的改变水平、在修改设备B的操作时改变的重要性、人物Y的角色/声誉等)
基于话题的文本片段210将不是修改的候选,因为关于设备A和/或设备B的大小、颜色等的库存描述语言永远不会改变。
基于话题的音频片段222不是用于修改文本文档204中的任何文本片段的候选,因为询问参会人员想去哪里吃午饭与文本文档204的内容无关。
现在假设TUUL 202基于发言者的角色、文本片段的重要性、口述音频片段的重要性等,确定基于话题的文本片段206将被基于话题的音频片段216的内容修改—因为基于话题的音频片段216中的内容与当前在基于话题的文本片段206中发现的内容不同。例如,假设设备A是一个旋转设备,并且人物W在文本文档204生成后的一次大会上表示,“设备A要将其额定运行速度从每分钟2000转(RPM)加快到2500RPM”。因此,已经确定了基于话题的文本片段206和基于话题的音频片段216都与设备A的操作参数有关的TUUL 202,将自动修改基于话题的文本片段206,以将“2000RPM”更改为“2500RPM”。如果文本文档204是设备A的操作手册,则在其中进行此更改,作为设备A的操作员的参考。但是,如果文本文档204是控制器156用来控制设备A(例如物理设备154)的操作的源代码,则TUUL 202为改变设备A的操作而识别(例如,从源代码中的注释、TUUL已知的与控制操作速度相关的源代码等)文本文档204中的适当源代码,并自动修改这部分源代码。
TUUL 202用分别取自基于话题的音频片段216和/或基于话题的音频片段220(用于基于话题的文本片段208)和/或基于话题的音频片段218(用于基于话题的文本片段212)的新信息(即不同于已经存在于基于话题的文本片段208和/或基于话题的文本片段212的)来对基于话题的文本片段208和/或基于话题的文本片段212作出类似的交互/评估/修改。
在本发明的一个或多个实施例中,TUUL 202用自然语言处理(NLP)和/或机器学习(ML) 来确定文本文档204中的哪些文本片段(如果有的话)要被图2中所示的音频文件214中的一个或多个音频片段修改。
在本发明的一个或多个实施例中,TUUL 202用图1所示的人工智能124来确定文本文档204中的哪些文本片段(如果有的话)要被图2中所示的音频文件214中的一个或多个音频片段修改。
在本发明的一个或多个实施例中,人工智能124利用电子神经网络架构,例如在深度神经网络(DNN)或卷积神经网络(CNN)中发现的架构。
在优选实施例中,用深度神经网络(DNN)来评估从文本文档服务器152接收的文本语料库中的文档中的文本/数字数据,而用CNN来评估图像语料库的图像。
CNN与DNN的相似之处在于两者都利用互连的电子神经元。然而,CNN与DNN的不同之处在于:1)CNN具有其大小基于滤波器大小、步幅值、填充值等的神经层;2)CNN利用卷积方案来分析图像数据。CNN的“卷积”之名基于的是过滤和汇集像素数据(一种对两个函数的数学运算)的卷积(即,对两个函数进行数学运算以获得结果)以生成预测输出 (获得结果)。
电子神经网络(DNN或CNN)内的逻辑单元被称为“神经元”或“节点”。如果电子神经网络完全用软件实现,那么每个神经元/节点都是一段单独的代码(即执行某些动作的指令)。如果电子神经网络完全用硬件实现,那么每个神经元/节点都是一个单独的硬件逻辑(例如处理器、门阵列等)。如果将电子神经网络实现为硬件和软件的组合,那么每个神经元/节点就是一组指令和/或一个硬件逻辑。
顾名思义,神经网络大致模仿生物神经网络(例如人脑)。生物神经网络由一系列相互影响的相互连接的神经元组成。例如,第一神经元可以通过释放由第二神经元接收的神经递质(来自第一神经元)通过突触电连接到第二神经元。这些神经递质可以导致第二个神经元变得兴奋或抑制。兴奋/抑制的互连神经元的模式最终会导致生物学结果,包括思想、肌肉运动、记忆恢复等。虽然对生物神经网络的这个描述高度简化,高级概述是一个或多个生物神经元影响一个或多个其他生物电连接的生物神经元的操作。
电子神经网络类似地由电子神经元组成。然而,与生物神经元不同,电子神经元在技术上从来不是“抑制性的”,而往往只是不同程度地“兴奋性的”。
在电子神经网络中,神经元被布置在称为输入层、隐藏层和输出层的层中。输入层中包括的神经元/节点接收输入数据,并将其发送到一系列隐藏层神经元,其中,隐藏层中一层的所有神经元与隐藏层下一层中的所有神经元互连。隐藏层中的最后一层然后将计算结果输出到输出层,其通常是用于保存向量信息的一个或多个节点。
现在参考图3,介绍根据本发明一个或多个实施例用来评估文本数据(例如,图2所示的文本文档204的片段和/或音频文件214的片段)以用于更新的文本文档片段的深度神经网络(DNN)324。
例如,为了说明的目的,假设DNN 324的输入是:图2的基于话题的文本片段208;基于话题的音频片段216(这是人物W说出的关于设备B应该如何操作/控制的词语的文本版本);基于话题的音频片段220(这是人物Y说出的关于设备B应该如何操作/控制的词语的文本版本);新颖标准301(例如,为了修改/更新基于话题的文本片段208必须满足什么标准)。新颖标准301的元素的示例包括但不限于:在特定的基于话题的文本片段中和特定的基于话题的音频片段中找到的共同主题,谁说出了在基于话题的音频片段中找到的词语,基于话题的文本片段中和基于话题的音频片段中的内容之间的差异量,在基于话题的文本片段中找到的内容和/或在基于话题的音频片段中找到的内容的重要性,等等。
如图3所示,DNN 324中的电子神经元按层排列,称为输入层303、隐藏层305和输出层307。输入层303中包括的神经元/节点接收输入数据并将其发送到一系列神经元隐藏层(例如,隐藏层305),其中,隐藏层中的一层的神经元与隐藏层305中的下一层中的所有神经元互连。隐藏层305中的最后一层然后将计算结果输出到输出层307,其通常是多个节点,每个节点都保存矢量信息。在本发明的实施例中,输出层307中的每个神经元都与一个向输出302的特定输出相关联,如图3所示。
在图3所示的例子中,DNN 324可以生成输出302中的两个输出:更新的基于话题的文本片段315的第一版本(“文本片段315”),以及更新的基于话题的文本片段317的第二版本(“文本片段317”)。
例如,基于所示的到输入层303的输入,文本片段315可以是基于话题的文本片段208的修改版本,其中,用于控制设备B的操作的源代码(在本发明的一个实施例中其是基于话题的文本片段208)、操作手册(在本发明的另一个实施例中其是基于话题的文本片段208)等被改变,以反映在基于话题的音频片段中发现的变化216。类似地,文本片段317 可以是用基于话题的音频成分220中的内容改变基于话题的文本片段208的结果。
也就是说,使用本文针对DNN 324描述的操作,DNN 324可以(基于基于话题的音频片段216与基于话题的音频片段220满足新颖标准301的程度)确定基于话题的音频片段216中的内容、或基于话题的音频片段220中的内容、或基于话题的音频片段216中和基于话题的音频片段220中的内容的组合,是用于修改基于话题的文本片段的最佳候选208。
因此,如果DNN 324确定人物W是谁以及他/她在基于话题的音频片段216中所说的话对基于话题的文本片段208的内容相比于人物Y在基于话题的音频片段220里所说的话更相关/更重要,则用基于话题的音频片段216的内容来更新基于话题的文本片段208。如果DNN 324确定人物Y是谁以及他/她在基于话题的音频片段220对基于话题的文本片段 208的内容相比于人物W在基于话题的音频片段216中所说的更相关/更重要,则用基于话题的音频片段220来更新基于话题的文本片段208。然而,如果DNN 324确定人物W和人物Y同等重要,他们说的话对基于话题的文本片段208同等相关,并且他们说的话彼此不矛盾,则将基于话题的音频片段216和基于话题的音频片段220二者中的内容合并到基于话题的文本片段208中。
如上所述,所示的DNN 324中的每个节点表示电子神经元,诸如所示的神经元309。如框311所示,每个神经元(包括神经元309)包括多个特征,诸如数学函数、输出值、权重和偏置值。
数学函数是用于处理一个或多个上游神经元中的数据的数学公式。例如,假设中间隐藏层305中所示的一个或多个神经元向神经元309发送数据值。然后神经元309通过执行框311中所示的数学函数来处理这些数据值,以便生成一个或多个输出值,数据值然后被发送到另一个神经元,诸如隐藏层305中的另一个神经元或输出层307中的神经元。每个神经元还具有特定于该神经元和/或其他连接的神经元的权重。此外,输出值与偏置值相加,这增加或减少输出值,从而允许对DNN 324进一步进行“微调”。
例如,假设神经元313在将其对一条数据的分析结果发送到神经元309。神经元309具有定义具体来自神经元313的数据的重要性的第一权重。如果数据重要,则将来自神经元313的数据重重地加权,和/或增加以偏置值,从而导致神经元309内的数学函数生成更高的输出,这将对在输出层307中的神经元产生更大的影响。类似地,如果已经确定神经元313对神经元309的操作很重要,则神经元313中的权重将增加,使得神经元309接收神经元313中的数学函数的输出的更高值。或者,可以通过减小用于影响神经元309的输出的权重和/或偏置量来最小化神经元309的输出。这些权重/偏置量对于DNN 324中的一个、一些或所有神经元来说是可调节的,从而从输出层307产生可靠的输出。这种调整可替代地手动或自动执行。
在手动调整时,数学函数、输出值、权重和/或偏置值由用户以重复的方式调整,直到来自输出层307的输出匹配期望。例如,假设文本片段315使用基于话题的音频片段216中的内容来更新基于话题的文本片段208,而文本片段317使用基于话题的音频片段220 中的内容来更新基于话题的文本片段208。进一步假设输出302以更可靠/更合适的顺序输出更新的文本片段。于是,DNN 324将文本片段315排名在文本片段317之上,并按这样的排名进行输出,这是因为DNN 324已经将基于话题的音频片段216解释为与基于话题的音频片段220相比对基于话题的文本片段202来说更相关和更重要。然而,进一步假设 DNN 324的审阅者确定基于话题的音频片段220中的关键字、发言者的角色等实际上比在基于话题的音频片段216中所发现的更符合新颖标准301。于是,手动地调整框311中所示的数学函数、输出值、权重和/或偏置值,直到文本片段317的排名和显示的顺序高于文本片段315。
在自动调整时,用“反向传播”来调整数学函数、输出值、权重和/或偏置量,其中“梯度下降”方法确定应如何调整每个数学函数、输出值、权重和/或偏置量才能提供准确的输出302。即,假设基于话题的音频片段220实际上比基于话题的音频片段216更好地满足新颖标准,则对框311中所示的数学函数、输出值、权重和/或偏置值递归地进行调整,直到文本片段317的排名和显示的顺序高于文本片段315。
现在参考图4,给出了根据本发明的一个或多个实施例执行的一个或多个步骤的高级流程图。
在启动框402之后,一个或多个处理器和/或用户将文本文档分割成基于话题的文本片段,如框404中所述。在本发明的实施例中,该文本文档控制设备的操作。也就是说,该文本文档是控制该设备的电子控制器的源代码,和/或是用于控制设备的操作手册。
如框406中所述,一个或多个处理器(例如图1中所示的处理器104)接收与文本文档相关的音频文件。例如在图2中,音频文件214与文本文档204相关,因为它们都与设备 A和/或设备B相关。在本发明实施例中,基于关于与音频文件214和文本文档204相关联的元数据(例如“设备A”、“设备B”、“操作控制”等)、音频文件214的标题(例如“对设备A和设备B操作的推荐更改”)和文本文档204的标题(例如“设备A和设备B 的操作”)等,音频文件214和文本文档204被认为是彼此相关。
如框408中所述,处理器将音频文件转换为文本以创建音频文件的文本表示(例如,使用已知的语音转文本-STT算法)。
如框410中所述,处理器和/或用户将音频文件的文本表示分割为基于话题的音频片段。例如,基于内容、上下文、使用的关键字等,将音频文件214的文本版本分割成图2 所示的基于话题的音频片段216、228、220、222,以便识别每个基于话题的音频片段216、 218、220、222的话题/内容。
如框412中所述,处理器和/或用户将基于话题的文本片段中的基于特定话题的文本片段与基于话题的音频片段中的基于特定话题的音频片段匹配,其中基于话题的文本片段中的基于特定话题的文本片段和基于话题的音频片段中的基于特定话题的音频片段属于同一话题。例如在图2中,基于话题的音频片段220的话题是“控制设备B”,这与基于话题的文本片段208的话题相同。
如框414中所述,处理器和/或用户识别基于特定话题的文本片段中的内容与基于特定话题的音频片段中的内容之间的差异。例如,即使基于话题的文本片段208和基于话题的音频片段220都针对相同话题“控制设备B”,它们的内容也可能不同。也就是说,基于话题的文本片段208可能陈述“以2500RPM操作设备B”,而基于话题的音频片段220 可能陈述“以2000RPM操作设备B”。
如框416中所述,处理器和/或用户基于基于特定话题的文本片段中的内容与基于特定话题的音频片段中的内容之间的差异确定基于特定话题的音频片段满足新颖标准。在上面的示例中,“2000RPM”与“2500RPM”的差异足以满足这一新颖(即新信息)标准。
如框418中所述,响应于确定基于特定话题的音频片段满足新颖标准,处理器(和/或图3中所示的DNN 324)用基于特定话题的音频片段中的内容更新基于特定话题的文本片段中的内容,以创建文本文档的更新版本(例如,图3中所示的更新的基于话题的文本片段315的第一版本)。如果这个更新是由神经网络或类似的人工智能执行的,那么这个更新是使用上述的用于图3中所示的DNN 324的过程来执行的。如果这个更新是由图1所示的处理器104执行的,则图3所示的更新的基于话题的文本片段315的第一版本的生成是由处理器104执行程序创建的,该程序1)识别所选择的文本/音频文件段中的内容之间的差异,2)确定该差异是显著的(例如,改变操作值超出了预定范围),以及3)用新内容音频片段更新文本片段。
如框420中所述,处理器利用文本文档的更新版本来执行修改设备的操作的动作。例如,如果文本文档是源代码,则图2所示的TUUL 202用该更新版本的源代码对控制器156重新编程,以改变由控制器156控制的物理设备154的操作。于是,在上面的示例中,物理设备154(例如,泵)将从以2000RPM旋转切换到以2500RPM旋转。因此,通过以对特定条件集最佳的方式执行,改进了设备的操作。
流程图在终止框422处结束。
在本发明的一个实施例中,音频文件是在文本文档之后生成的。因此,音频文件的内容修改了已经存在的文本文档。
在本发明的实施例中,处理器将自然语言处理(NLP)应用于音频文件的基于文本的表示,以为文本文档识别候选文档更新。例如,假设基于话题的音频片段216是人物W所说的词语的文本版本,其中人物W说:“我认为我们应该将设备B的旋转速度加快25%”。 NLP认为该语句是1)关于设备B的;2)要将设备B的转速提高25%。此后,NLP还将评估基于话题的文本片段208,将其识别为1)是关于设备B的操作的;2)该设备当前以2000 RPM的转速操作。因此,系统将关联该信息以在基于话题的文本片段208中将设备B的转速增加到2500RPM。
在本发明的实施例中,处理器基于说出基于特定话题的音频片段的发言者的角色进一步确定基于特定话题的音频片段满足新颖标准。也就是说,如上所述,不仅音频片段和文本片段中的信息差异表明这种信息差异是新颖的(显著不同),而且发言者的角色也表明这种新颖的/不同的信息很重要。也就是说,如果泵操作员声明泵的转速应提高25%,则该声明比没有泵技术/操作角色的人员声明泵的转速应降低25%更可信。
在本发明的实施例中,处理器确定基于特定话题的音频片段的重要性分数—其中重要性分数基于更新基于特定话题的文本片段时基于特定话题的音频片段对文本文档作出的改变的类型,并且基于基于特定话题的音频片段的重要性分数来确定基于特定话题的音频片段满足新颖标准。例如,如果图2中的人物W建议将设备B的转速提高25%(基于话题的音频片段216),而人物Y建议将设备B涂成灰色而不是白色(基于话题的音频片段 220),那么,通过使用NLP或者识别发言者正在谈论什么的类似逻辑,赋予基于话题的音频片段音216比基于话题的音频片段220的更高的重要性。因此,修改基于话题的文本片段208,以反映设备B的转速增加到2500RPM,同时忽略人物Y将设备B涂成灰色的建议,因为泵(设备B)的颜色不会影响它的性能。
在本发明实施例中,处理器向用户提供基于特定话题的音频片段以供反馈;在收到用户反馈后,更新文本文档;并对更新的文本文档重新编制索引。也就是说,一旦使用本文描述的过程整体更新了图2所示的文本文档204,它就被发送给用户以获得批准反馈。一旦用户已经审查并批准了更改,文本文档204就被重新索引,以在索引中显示已经进行了哪些更改,以及它们在文本文档204中的位置。
在本发明实施例中,文本文档是源代码,其在由一个或多个处理器执行时,使设备的控制器执行修改设备的操作的动作,如图1和图2所示。
在一个或多个实施例中,本发明用云计算来实施。不过事先应当理解,尽管本公开包括关于云计算的详细描述,但是本文所引用的教导的实现不限于云计算环境。相反,本发明的实施例能够结合现在已知或以后开发的任何其他类型的计算环境来实现。
云计算是一种服务交付模型,用于实现对可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便、按需的网络访问,所述可配置计算资源可以用最小的管理努力或与服务提供商的交互来快速配置和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
特性如下:
按需自助服务:云消费者可按需自动地单方面供应计算能力,诸如服务器时间和网络存储,而无需与服务提供商进行人工交互。
广泛的网络接入:通过网络提供功能,并通过标准机制进行访问,所述标准机制促进由异构的瘦客户端或厚客户端平台(例如,移动电话、膝上型计算机和PDA)的使用。
资源池化:提供者的计算资源被汇集起来以使用多租户模型来服务于多个消费者,不同的物理和虚拟资源根据需要被动态分配和重新分配。存在位置独立性的意义,因为消费者通常对所提供资源的确切位置不具有控制权或知识,但可能能够指定更高抽象层级的位置(例如,国家、州或数据中心)。
快速弹性:可以快速且弹性地配置功能,在某些情况下自动地快速扩展,迅速释放以快速收缩。对于消费者而言,可用于配置的功能通常看起来是无限的,可以在任何时间以任何数量购买。
度量的服务:云系统通过利用与服务类型(例如,存储、处理、带宽和活动用户帐户) 相适应的某种抽象级别的计量功能来自动控制和优化资源使用。可以监视、控制和报告资源使用情况,为所使用服务的提供者和使用者提供透明度。
软件即服务(SaaS):向消费者提供的功能是使用在云基础设施上运行的提供者的应用。这些应用可通过诸如web浏览器(例如,基于web的电子邮件)的瘦客户端接口从不同客户端设备访问。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至个体应用功能的底层云基础结构,可能的例外是有限的用户特定的应用配置设置。
平台即服务(PaaS):向消费者提供的功能是在云基础结构上部署消费者创建或获取的应用,所述应用是用提供者所支持的编程语言和工具创建的。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础结构,但是具有对所部署的应用以及可能的应用托管环境配置的控制。
基础设施即服务(IaaS):向消费者提供的功能是提供消费者能够部署和运行可包括操作系统和应用的任意软件的处理、存储、网络和其他基本计算资源。消费者不管理或控制底层云基础结构,而是具有对操作系统、存储、所部署的应用的控制,以及对所选联网组件(例如,主机防火墙)的可能有限的控制。
部署模型如下:
私有云:云基础结构仅为组织运营。它可以由组织或第三方管理,并且可存在于场所内或场所外。
社区云:云基础结构由多个组织共享,并支持具有共同关注点(例如,任务、安全要求、策略和合规性考虑)的特定社区。在一个或多个实施例中,它可以由组织或第三方管理,并且可存在于场所内或场所外。
公共云:云基础结构可供公众或大型行业团体使用,并由销售云服务的组织拥有。
混合云:云基础结构是由两个或更多个云(私有、社区或公共的)组成的,这些云仍然是唯一性实体,但通过标准化或专有技术来绑定在一起,这些技术实现数据和应用的可移植性(例如,用于云之间的负载平衡的云突发)。
云计算环境是面向服务的,着重于无状态性、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础架构。
现在参见图5,描绘说明性云计算环境50。如图所示,云计算环境50包括一个或多个云计算节点52,云消费者使用的本地计算设备(诸如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N)可与云计算节点52 通信。节点52可以彼此通信。它们可以在一个或多个网络中,诸如在上文所述的私有云、社区云、公共云或混合云或其组合中,被物理地或虚拟地分组(未示出)。这允许云计算环境50提供基础结构、平台和/或软件作为服务,云消费者不需要为其在本地计算设备上维护资源。应当理解,图5 中所示的计算设备54A-N的类型仅旨在是说明性的,并且计算节点52和云计算环境50可通过任何类型的网络和/或网络可寻址连接(例如,使用web 浏览器)与任何类型的计算机化设备进行通信。
现在参见图6,示出了由云计算环境50(图5)提供的一组功能抽象层。应预先理解,图6中所示的部件、层和功能旨在仅是说明性的,本发明的实施例不限于此。如图所示,提供了以下层和相应的功能:
硬件和软件层60包括硬件和软件组件。硬件组件的示例包括:主机61;基于RISC(精简指令集计算机)架构的服务器62;服务器63;刀片服务器64;存储65;以及网络和联网组件66。在一些实施例中,软件组件包括网络应用服务器软件67和数据库软件68。
虚拟化层70提供抽象层,在一个或多个实施例中,从抽象层提供以下虚拟实体的示例:虚拟服务器71;虚拟存储72;虚拟网络73,包括虚拟专用网络;虚拟应用和操作系统74;以及虚拟客户端75。
在一个示例中,管理层80可提供下文所描述的功能。资源供应81提供用于执行云计算环境内的任务的计算资源和其他资源的动态获取。计量和定价82在云计算环境内利用资源时提供成本跟踪,并针对这些资源的消费进行计费或开票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及对数据和其他资源的保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理 84提供云计算资源分配和管理,使得满足所需的服务级别。服务水平协议(SLA)计划和履行85为根据SLA预期的云计算资源的未来要求提供云计算资源的预安排和采购。
工作负载层90提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括:地图和导航91;软件开发和生命周期管理92;虚拟教室教育交付93;数据分析处理94;事务处理95;以及执行本文描述的本发明的一个或多个特征的文档更新和利用处理96。
本文使用的术语仅用于描述具体实施例,并不旨在限制本发明。如本文中使用的,单数形式“一个”、“一种”和“该”旨在也包括复数形式,除非上下文另有明确指示。将进一步理解,当在本说明书中使用术语“包括”和/或“包含”时,其指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在,但不排除一个或多个其他特征、整数、步骤、操作、元件、组件和/或其组的存在或添加。
以下权利要求中的所有装置或步骤加功能元件的相应结构、材料、动作和等效物旨在包括用于结合如具体要求保护的其他要求保护的元件来执行功能的任何结构、材料或动作。出于说明和描述的目的已经给出了对一个或多个实施例的描述,但是并不旨在是详尽的或限于所公开的形式。许多修改和变化对本领域的普通技术人员将是明显的。实施例的选择和描述方式是为了最好地解释各个方面和实际应用,使得本领域普通技术人员能够理解具有适合于所预期的特定用途的不同修改的不同实施例。
在本发明的一个或多个实施例中,本发明中描述的任何方法都是通过使用VHDL(VHSIC 硬件描述语言)程序和VHDL芯片来实现的。VHDL是现场可编程门阵列(FPGA)、专用集成电路(ASIC)和其他类似电子设备的典型设计入口语言。因此,在本发明的一个或多个实施例中,本文描述的任何软件实现方法由基于硬件的VHDL程序模拟,然后将其应用于VHDL芯片,例如FPGA。
以上参考其示例性实施例详细描述了本申请的本发明实施例,很明显,在不偏离后附权利要求中定义的本发明范围的情况下,可以进行修改和变更。

Claims (20)

1.一种用于基于音频文件更新文档的方法,所述方法包括:
将文本文档分割成基于话题的文本片段,其中所述文本文档控制设备的操作;
由一个或多个处理器接收与文本文档相关的音频文件;
由一个或多个处理器将音频文件转换为文本以创建音频文件的文本表示;
将音频文件的文本表示分割成基于话题的音频片段,其中基于话题的音频片段为该音频片段的文本转换;
将基于话题的文本片段中的基于特定话题的文本片段与基于话题的音频片段中的基于特定话题的音频片段进行匹配,其中基于话题的文本片段中的基于特定话题的文本片段和基于话题的音频片段中的基于特定话题的音频片段属于同一话题;
识别基于特定话题的文本片段中的内容与基于特定话题的音频片段中的内容之间的差异;
基于基于特定话题的文本片段中的内容与基于特定话题的音频片段中的内容之间的差异,确定基于特定话题的音频片段满足新颖标准;
响应于确定基于特定话题的音频片段满足新颖标准,用基于特定话题的音频片段中的内容更新基于特定话题的文本片段中的内容以创建文本文档的更新版本;以及
利用文本文档的更新版本来执行修改设备的操作的动作。
2.根据权利要求1所述的方法,其中,音频文件是在文本文档之后生成的。
3.根据权利要求1所述的方法,还包括:
由一个或多个处理器对音频文件的文本表示应用自然语言处理(NLP),以识别用于文本文档的候选文档更新。
4.根据权利要求1所述的方法,还包括:
基于说出基于特定话题的音频片段的发言者的角色,进一步确定基于特定话题的音频片段满足新颖标准。
5.根据权利要求1所述的方法,还包括:
确定基于特定话题的音频片段的重要性分数,其中重要性分数基于基于特定话题的音频片段在更新基于特定话题的文本片段时对文本文档所做的改变类型;和
基于基于特定话题的音频片段的重要性分数确定基于特定话题的音频片段满足新颖标准。
6.根据权利要求1所述的方法,还包括:
向用户提供基于特定话题的音频片段以供反馈;
响应于接收到用户的反馈,更新文本文档;和
重新索引更新的文本文档。
7.根据权利要求1所述的方法,其中,文本文档是源代码,其在由一个或多个处理器执行时,使设备的控制器执行修改设备的操作的动作。
8.一种用于基于音频文件更新文档的计算机可读存储介质,所述计算机可读存储介质具有嵌入其中的程序代码,其中所述计算机可读存储介质本身不是瞬时信号,并且其中所述程序代码是处理器可读和可执行的,以执行包括以下步骤的方法:
将文本文档分割成基于话题的文本片段,其中所述文本文档控制设备的操作;
接收与文本文档相关的音频文件;
将音频文件转换为文本以创建音频文件的文本表示;
将音频文件的文本表示分割成基于话题的音频片段,其中基于话题的音频片段为该音频片段的文本转换;
将基于话题的文本片段中的基于特定话题的文本片段与基于话题的音频片段中的基于特定话题的音频片段进行匹配,其中基于话题的文本片段中的基于特定话题的文本片段和基于话题的音频片段中的基于特定话题的音频片段属于同一话题;
识别基于特定话题的文本片段中的内容与基于特定话题的音频片段中的内容之间的差异;
基于基于特定话题的文本片段中的内容与基于特定话题的音频片段中的内容之间的差异,确定基于特定话题的音频片段满足新颖标准;
响应于确定基于特定话题的音频片段满足新颖标准,用基于特定话题的音频片段中的内容更新基于特定话题的文本片段中的内容以创建文本文档的更新版本;和
利用文本文档的更新版本来执行修改设备的操作的动作。
9.根据权利要求8所述的计算机可读存储介质,其中,音频文件是在文本文档之后生成的。
10.根据权利要求8所述的计算机可读存储介质,其中所述方法还包括:
对音频文件的文本表示应用自然语言处理(NLP),以识别用于文本文档的候选文档更新。
11.根据权利要求8所述的计算机可读存储介质,其中所述方法还包括:
基于说出基于特定话题的音频片段的发言者的角色,进一步确定基于特定话题的音频片段满足新颖标准。
12.根据权利要求8所述的计算机可读存储介质,其中所述方法还包括:
确定基于特定话题的音频片段的重要性分数,其中重要性分数基于基于特定话题的音频片段在更新基于特定话题的文本片段时对文本文档所做的改变类型;和
基于基于特定话题的音频片段的重要性分数确定基于特定话题的音频片段满足新颖标准。
13.根据权利要求8所述的计算机可读存储介质,其中所述方法还包括:
向用户提供基于特定话题的音频片段以供反馈;
响应于接收到用户的反馈,更新文本文档;和
重新索引更新的文本文档。
14.根据权利要求8所述的计算机可读存储介质,其中,文本文档是源代码,其在由一个或多个处理器执行时,使设备的控制器执行修改设备的操作的动作。
15.根据权利要求8所述的计算机可读存储介质,其中程序代码作为云环境中的服务来提供。
16.一种用于基于音频文件更新文档的计算机系统,所述计算机系统包括一个或多个处理器、一个或多个计算机可读存储器和一个或多个计算机可读非暂时性存储介质,以及存储在一个或多个计算机可读非暂时性存储介质中的至少一个上的程序指令,用于由一个或多个处理器中的至少一个经由一个或多个计算机可读存储器中的至少一个执行,所存储的程序指令被执行以执行一种方法,所述方法包括:
将文本文档分割成基于话题的文本片段,其中文本文档控制设备的操作;
接收与文本文档相关的音频文件;
将音频文件转换为文本以创建音频文件的文本表示;
将音频文件的文本表示分割成基于话题的音频片段,其中基于话题的音频片段为该音频片段的文本转换;
将基于话题的文本片段中的基于特定话题的文本片段与基于话题的音频片段中的基于特定话题的音频片段进行匹配,其中基于话题的文本片段中的基于特定话题的文本片段和基于话题的音频片段中的基于特定话题的音频片段属于同一话题;
识别基于特定话题的文本片段中的内容与基于特定话题的音频片段中的内容之间的差异;
基于基于特定话题的文本片段中的内容与基于特定话题的音频片段中的内容之间的差异,确定基于特定话题的音频片段满足新颖标准;
响应于确定基于特定话题的音频片段满足新颖标准,用基于特定话题的音频片段中的内容更新基于特定话题的文本片段中的内容以创建文本文档的更新版本;和
利用文本文档的更新版本来执行修改设备的操作的动作。
17.根据权利要求16所述的计算机系统,其中,音频文件是在文本文档之后生成的。
18.根据权利要求16所述的计算机系统,其中,所述方法还包括:
基于说出基于特定话题的音频片段的发言者的角色,进一步确定基于特定话题的音频片段满足新颖标准。
19.根据权利要求16所述的计算机系统,其中,文本文档是源代码,其在由一个或多个处理器执行时,使设备的控制器执行修改设备的操作的动作。
20.根据权利要求16所述的计算机系统,其中,所存储的程序指令是作为云环境中的服务提供的。
CN202080068839.2A 2019-10-12 2020-10-09 用于基于音频文件更新文档的方法、系统和计算机可读介质 Active CN114450747B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/600,475 2019-10-12
US16/600,475 US11354920B2 (en) 2019-10-12 2019-10-12 Updating and implementing a document from an audio proceeding
PCT/IB2020/059511 WO2021070135A1 (en) 2019-10-12 2020-10-09 Updating and implementing document from audio proceeding

Publications (2)

Publication Number Publication Date
CN114450747A CN114450747A (zh) 2022-05-06
CN114450747B true CN114450747B (zh) 2022-11-22

Family

ID=75383134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080068839.2A Active CN114450747B (zh) 2019-10-12 2020-10-09 用于基于音频文件更新文档的方法、系统和计算机可读介质

Country Status (6)

Country Link
US (1) US11354920B2 (zh)
JP (1) JP2022551941A (zh)
CN (1) CN114450747B (zh)
DE (1) DE112020004925T5 (zh)
GB (1) GB2604507A (zh)
WO (1) WO2021070135A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11893990B2 (en) * 2021-09-27 2024-02-06 Sap Se Audio file annotation
US20230137043A1 (en) * 2021-10-28 2023-05-04 Zoom Video Communications, Inc. Content-Based Conference Notifications
US11954778B2 (en) 2022-01-04 2024-04-09 International Business Machines Corporation Avatar rendering of presentations

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007066246A2 (en) * 2005-12-08 2007-06-14 Koninklijke Philips Electronics N.V. Method and system for speech based document history tracking
CN101290628A (zh) * 2008-06-17 2008-10-22 中兴通讯股份有限公司 一种数据文件更新存储方法
CN104662604A (zh) * 2012-08-02 2015-05-27 奥德伯公司 对应媒体内容部分的对齐
CN105898085A (zh) * 2016-04-05 2016-08-24 腾讯科技(深圳)有限公司 骚扰通信账号的识别方法及装置
CN109858005A (zh) * 2019-03-07 2019-06-07 百度在线网络技术(北京)有限公司 基于语音识别的文档更新方法、装置、设备及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040204939A1 (en) 2002-10-17 2004-10-14 Daben Liu Systems and methods for speaker change detection
US7979281B2 (en) * 2003-04-29 2011-07-12 Custom Speech Usa, Inc. Methods and systems for creating a second generation session file
US10672399B2 (en) * 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US20130275429A1 (en) 2012-04-12 2013-10-17 Graham York System and method for enabling contextual recommendations and collaboration within content
US9484033B2 (en) 2014-12-11 2016-11-01 International Business Machines Corporation Processing and cross reference of realtime natural language dialog for live annotations
US10146789B1 (en) * 2015-06-30 2018-12-04 Amazon Technologies, Inc. Identifying and utilizing synchronized content
CN105895085B (zh) 2016-03-30 2019-10-18 讯飞智元信息科技有限公司 一种多媒体转写方法和系统
US10140973B1 (en) * 2016-09-15 2018-11-27 Amazon Technologies, Inc. Text-to-speech processing using previously speech processed data
US10360915B2 (en) 2017-04-28 2019-07-23 Cloud Court, Inc. System and method for automated legal proceeding assistant
US10657954B2 (en) * 2018-02-20 2020-05-19 Dropbox, Inc. Meeting audio capture and transcription in a collaborative document context
CN108984529B (zh) 2018-07-16 2022-06-03 北京华宇信息技术有限公司 实时庭审语音识别自动纠错方法、存储介质及计算装置
US11182504B2 (en) * 2019-04-29 2021-11-23 Microsoft Technology Licensing, Llc System and method for speaker role determination and scrubbing identifying information
US10789956B1 (en) * 2019-08-20 2020-09-29 Capital One Services, Llc Text-to-speech modeling

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007066246A2 (en) * 2005-12-08 2007-06-14 Koninklijke Philips Electronics N.V. Method and system for speech based document history tracking
CN101290628A (zh) * 2008-06-17 2008-10-22 中兴通讯股份有限公司 一种数据文件更新存储方法
CN104662604A (zh) * 2012-08-02 2015-05-27 奥德伯公司 对应媒体内容部分的对齐
CN105898085A (zh) * 2016-04-05 2016-08-24 腾讯科技(深圳)有限公司 骚扰通信账号的识别方法及装置
CN109858005A (zh) * 2019-03-07 2019-06-07 百度在线网络技术(北京)有限公司 基于语音识别的文档更新方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114450747A (zh) 2022-05-06
WO2021070135A1 (en) 2021-04-15
JP2022551941A (ja) 2022-12-14
DE112020004925T5 (de) 2022-06-23
GB202206930D0 (en) 2022-06-29
US20210110154A1 (en) 2021-04-15
GB2604507A (en) 2022-09-07
US11354920B2 (en) 2022-06-07

Similar Documents

Publication Publication Date Title
JP7412060B2 (ja) 自然言語分類のための訓練データの拡張
US10366160B2 (en) Automatic generation and display of context, missing attributes and suggestions for context dependent questions in response to a mouse hover on a displayed term
US11874861B2 (en) Retraining a conversation system based on negative feedback
US11645470B2 (en) Automated testing of dialog systems
US11182557B2 (en) Driving intent expansion via anomaly detection in a modular conversational system
US11100290B2 (en) Updating and modifying linguistic based functions in a specialized user interface
US11010700B2 (en) Identifying task and personality traits
CN114450747B (zh) 用于基于音频文件更新文档的方法、系统和计算机可读介质
US20200034447A1 (en) Content based routing
US10565277B2 (en) Network search mapping and execution
US20210312122A1 (en) Methods and systems for generating documents with a targeted style
US11734348B2 (en) Intelligent audio composition guidance
US11562747B2 (en) Speech-to-text transcription with multiple languages
CN116601648A (zh) 备选软标签生成
US11288293B2 (en) Methods and systems for ensuring quality of unstructured user input content
US11003854B2 (en) Adjusting an operation of a system based on a modified lexical analysis model for a document
US20230177255A1 (en) Conversational agent counterfactual simulation
US11921808B2 (en) Auto-evolving of online posting based on analyzed discussion thread
US20220189475A1 (en) Dynamic virtual assistant speech modulation
US11397857B2 (en) Methods and systems for managing chatbots with respect to rare entities
US10902046B2 (en) Breaking down a high-level business problem statement in a natural language and generating a solution from a catalog of assets
US10599783B2 (en) Automatically suggesting a temporal opportunity for and assisting a writer in writing one or more sequel articles via artificial intelligence
US20230335123A1 (en) Speech-to-text voice visualization
US11829400B2 (en) Text standardization and redundancy removal
US20170116629A1 (en) System for searching existing customer experience information through cross-industries from text descriptions on a customer experience

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant