CN113849606A - 文件处理方法及装置、电子设备 - Google Patents

文件处理方法及装置、电子设备 Download PDF

Info

Publication number
CN113849606A
CN113849606A CN202111155010.9A CN202111155010A CN113849606A CN 113849606 A CN113849606 A CN 113849606A CN 202111155010 A CN202111155010 A CN 202111155010A CN 113849606 A CN113849606 A CN 113849606A
Authority
CN
China
Prior art keywords
text
content
recognition
recognition result
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111155010.9A
Other languages
English (en)
Inventor
林庆健
洪密
郭莉莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN202111155010.9A priority Critical patent/CN113849606A/zh
Publication of CN113849606A publication Critical patent/CN113849606A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例公开了一种文件处理方法及装置、电子设备,所述文件处理方法包括:采集第一音频,对所述第一音频进行语音识别,得到第一识别结果;其中,所述第一音频与第一文本相关联;采集第一图像,对所述第一图像进行文本识别,得到第二识别结果;其中,所述第一图像中包含所述第一文本基于第一应用启动的呈现界面;将所述第一识别结果与所述第二识别结果进行匹配,得到匹配结果;基于所述匹配结果对所述第一文本中的匹配内容进行标识。本申请实施例方便用户确定当前发言与相应文本的对应之处,提升了用户体验。

Description

文件处理方法及装置、电子设备
技术领域
本申请实施例涉及文件处理技术,尤其涉及一种文件处理方法及装置、电子设备。
背景技术
在演讲者进行PPT展示的过程中,如果通过语音识别系统进行实时地语音识别,能更好地帮助用户进行内容整理。然而,语音识别系统一般是针对泛化场景设计的,对于常用词的转写准确率较高;但是对于仅在特定场景下出现的专业词汇或术语,语音识别的准确率有所下降。如果定制特定场景优化的语音识别系统,则成本较高,并且,对于不同主题的PPT展示,需要手动切换不同的语音识别系统。
发明内容
为解决现有存在的技术问题,本申请实施例提供一种文件处理方法及装置、电子设备。
本申请实施例的技术方案是这样实现的:
一种文件处理方法,包括:
采集第一音频,对所述第一音频进行语音识别,得到第一识别结果;其中,所述第一音频与第一文本相关联;以及
采集第一图像,对所述第一图像进行文本识别,得到第二识别结果;其中,所述第一图像中包含所述第一文本基于第一应用启动的呈现界面;
将所述第一识别结果与所述第二识别结果进行匹配,得到匹配结果;
基于所述匹配结果对所述第一文本中的匹配内容进行标识。
作为一种实现方式,所述对所述第一图像进行文本识别,得到第二识别结果,包括:
获取所述第一图像中的所述第一文本的呈现界面,识别出所述呈现界面中的文本块;
识别所述文本块中的文字,作为所述第二识别结果。
作为一种实现方式,所述将所述第一识别结果与所述第二识别结果进行匹配,得到匹配结果,包括:
获取所述第一识别结果中的第一文字内容,将所述第一文字内容分别与所述文本块的识别文字进行文本和/或语义文本匹配;
查找出与所述第一文字内容的文本和/或语义匹配度最高的文本块识别文字,作为匹配结果。
作为一种实现方式,所述基于所述匹配结果对所述第二识别结果中的识别内容进行标识,包括:
调整与所述第一文字内容的文本和/或语义匹配度最高的文本块识别文字所在区域的显示属性,以区别于其他文本块识别文字。
作为一种实现方式,所述方法还包括:
识别所述第一文字内容中的关键词,基于本地的知识图谱库获取所述关键词的领域相关词,将所述领域相关词作为热词表;
基于所述热词表在热词模型网络进行训练,基于所述热词模型网络对所述第一文字内容进行修正。
作为一种实现方式,所述方法还包括:
识别所述第一文字内容中的关键词,基于所述关键词进行知识图谱扩充,获取所述关键词的领域相关词,得到扩充数据;
基于所述扩充数据在设定的优化模型进行词汇训练,对所述第一文字内容进行修正。
作为一种实现方式,所述方法还包括:
基于修正后的所述第一文字内容,以及所述关键词的领域相关词,分别与所述文本块的识别文字进行文本和/或语义文本匹配,再次确定与所述第一文字内容的文本和/或语义匹配度最高的文本块识别文字;
如果再次确定的文本块识别文字与之前标识的文本块识别文字不同,取消对所述之前标识的文本块的标识。
作为一种实现方式,所述采集第一音频,对所述第一音频进行语音识别,得到第一识别结果,包括:
确定所述第一文本中的关键词,基于知识图谱库获取所述关键词的领域相关词,将所述领域相关词作为热词表;
基于所述热词表对热词模型网络进行训练,基于所述热词模型网络对采集的第一音频进行语音识别,得到第一识别结果。
作为一种实现方式,所述采集第一音频,对所述第一音频进行语音识别,得到第一识别结果,包括:
确定所述第二识别结果中的关键词,基于知识图谱库获取所述关键词的领域相关词,将所述领域相关词作为热词表;
基于所述热词表对热词模型网络进行训练,基于所述热词模型网络对采集的第一音频进行语音识别,得到第一识别结果。
根据本申请实施例的第二方面,提供一种文件处理装置,包括:
第一识别单元,用于采集第一音频,对所述第一音频进行语音识别,得到第一识别结果;其中,所述第一音频与第一文本相关联;以及
第二识别单元,用于采集第一图像,对所述第一图像进行文本识别,得到第二识别结果;其中,所述第一图像中包含所述第一文本基于第一应用启动的呈现界面;
匹配单元,用于将所述第一识别结果与所述第二识别结果进行匹配,得到匹配结果;
标识单元,用于基于所述匹配结果对所述第一文本中的匹配内容进行标识。
作为一种实现方式,所述第二识别单元,还用于:
获取所述第一图像中的所述第一文本的呈现界面,识别出所述呈现界面中的文本块;
识别所述文本块中的文字,作为所述第二识别结果。
作为一种实现方式,所述匹配单元,还用于:
获取所述第一识别结果中的第一文字内容,将所述第一文字内容分别与所述文本块的识别文字进行文本和/或语义文本匹配;
查找出与所述第一文字内容的文本和/或语义匹配度最高的文本块识别文字,作为匹配结果。
作为一种实现方式,所述标识单元,用于:
调整与所述第一文字内容的文本和/或语义匹配度最高的文本块识别文字所在区域的显示属性,以区别于其他文本块识别文字。
根据本申请实施例的第三方面,提供一种电子设备,包括至少一个处理器和用于存储能够在处理器上运行的计算机程序的存储器,所述计算机程序被所述处理器执行时,能够执行所述的文件处理方法的步骤。
本申请实施例的文件处理方法及装置、电子设备,可以对语音发言人进行语音识别,并基于语音识别结果,确定语音发言人的发言内容与其通过电子设备展示的演进内容进行匹配,可以对当前演进内容进行标识,方便发言人和听众能够基于标识确定当前的发言位置,这样,从发言人的角度而言,在发言过程中能自动标识当前的发言要点及位置,从听众的角度,即使发言人未在发言展示界面中突出要点,通过自动标识发言内容,也可以快速对发言内容进行追踪。本申请实施例大大提升了用户的使用体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例的文件处理方法的流程示意图;
图2为本申请实施例的文件处理方法的流程示意图;
图3为本申请实施例的文件处理方法的流程示意图;
图4为本申请实施例的文件处理装置的组成结构示意图;
图5为本申请实施例的电子设备的组成结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
下面结合附图及具体实施例对本申请作进一步详细的说明。
下面结合附图及具体实施例对本申请作进一步详细的说明。
图1为本申请实施例的文件处理方法的流程示意图,如图1所示,本申请实施例的文件处理方法包括以下处理步骤:
步骤101,采集第一音频,对所述第一音频进行语音识别,得到第一识别结果。
本申请实施例中,所述第一音频与第一文本相关联。第一音频是指发言人通过投影仪或显示屏幕将自己的发言内容向听众呈现,即结合所呈现内容进行相应的语音发言。典型的应用场景包括演讲,技术交流会、视频会议等。即本申请实施例的应用场景中,存在与第一音频的对应文字展示内容。
这里的第一音频主要是指发言人的讲话,如演讲、交流会议中发言人的语音发言等。采集到第一音频后,对该所采集的第一音频进行语音识别,识别为相应的文字内容。
步骤102,采集第一图像,对所述第一图像进行文本识别,得到第二识别结果。
本申请实施例中,所述第一图像中包含所述第一文本基于第一应用启动的呈现界面。这里的第一图像可以是通过对发言人发言内容的投影屏幕进行直接采集的图像,如通过对投影或显示屏幕通过相机进行拍摄而获取第一图像,也可以是通过对发言人的发言所依据的文字内容的文件进行调用,获取当前所呈现的界面,作为第一图像。例如,当应用场景为演讲者基于PPT等文件进行演讲的场景时,可以通过演讲者进行PPT投放的电子设备获取演讲者当前展示界面的第一图像;此时的第一应用可以是PPT文件的应用如Office等。演讲者所展示的文件也可以是PDF、Word等。本申请实施例支持多种方式获取第一图像。
本申请实施例中,步骤101和步骤102之间可以并行进行,其之间的时序并无先后顺序。也可以先获取第一图像,再对当前采集的第一音频进行文字识别等。
步骤103,将所述第一识别结果与所述第二识别结果进行匹配,得到匹配结果。
这里,将第一识别结果和第二识别结果进行匹配,可以是将第一识别结果中的文字信息进行切词,获知所述第一识别结果中的关键词或关键语句,这里的关键词或关键语句是指具有一定含义的词语或句子,如可以通过语料库进行词语匹配,基于匹配后的词语对句子进行语义分析等方式,获取第一识别结果中的关键词或关键句。将所获取的关键词或关键句与第二识别结果进行匹配,确定出匹配的关键词或关键句,得到匹配结果。这里的关键词或关键句可以是第一文本中词频超过设定阈值的词,或词频最高的一些词。关键句可以是包含关键词的句子。
本申请实施例中,作为一种实现方式,也可以是对第二识别结果中的关键词或关键句进行识别,并与第一识别结果中的文字内容进行匹配,只要能确定出第一识别结果和第二识别结果之间的匹配关键词或关键句即可。
步骤104,基于所述匹配结果对所述第一文本中的匹配内容进行标识。
本申请实施例中,当确定出第一识别结果后,确定出第一识别结果与第二识别结果的匹配关键词或关键句,以此来确定出第二识别结果中与第一识别结果中的关键词或关键句匹配的内容,并确定出第二识别结果中的匹配内容在第一文本中的位置,基于所确定的位置对第一文本中的匹配内容进行标识,以突出显示该部分,以向发言人或听众标示该部分与当前的发言内容相关,从而可以方便发言人及听众基于该内容标识确定出发言人当前发言对应于展示界面的那个位置处的内容,方便听众能紧紧跟随发言人的发言内容。
图2为本申请实施例的文件处理方法的流程示意图,如图2所示,本申请实施例的文件处理方法包括以下处理步骤:
步骤201,采集第一音频,对所述第一音频进行语音识别,得到第一识别结果。
本申请实施例中,所述第一音频与第一文本相关联。第一音频是指发言人通过投影仪或显示屏幕将自己的发言内容向听众呈现,即结合所呈现内容进行相应的语音发言。典型的应用场景包括演讲,技术交流会、视频会议等。即本申请实施例的应用场景中,存在与第一音频的对应文字展示内容。
这里的第一音频主要是指发言人的讲话,如演讲、交流会议中发言人的语音发言等。采集到第一音频后,对该所采集的第一音频进行语音识别,识别为相应的文字内容。
步骤202,采集第一图像,获取所述第一图像中的所述第一文本的呈现界面,识别出所述呈现界面中的文本块;识别所述文本块中的文字,作为所述第二识别结果。
本申请实施例中,所述第一图像中包含所述第一文本基于第一应用启动的呈现界面。这里的第一图像可以是通过对发言人发言内容的投影屏幕进行直接采集的图像,如通过对投影或显示屏幕通过相机进行拍摄而获取第一图像,也可以是通过对发言人的发言所依据的文字内容的文件进行调用,获取当前所呈现的界面,作为第一图像。例如,当应用场景为演讲者基于PPT等文件进行演讲的场景时,可以通过演讲者进行PPT投放的电子设备获取演讲者当前展示界面的第一图像;此时的第一应用可以是PPT文件的应用如Office等。演讲者所展示的文件也可以是PDF、Word等。本申请实施例支持多种方式获取第一图像。
这里,可以通过第一文本的第一应用来获取第一文本当前显示界面对应的呈现界面,即本申请实施例中,需要对发言人当前的发言内容与第一文本中的展示内容相关联,以便对第一文本中的关联内容进行标识,方便发言人及听众获知当前的发言内容与PPT等文件的对应处,以便听众能跟随发言人的语音确定当前发言的相关重点或具体内容等。
本申请实施例中,步骤101和步骤102之间可以并行进行,其之间的时序并无先后顺序。也可以先获取第一图像,再对当前采集的第一音频进行文字识别等。
步骤203,将所述第一识别结果与所述第二识别结果进行匹配,得到匹配结果。
这里,将第一识别结果和第二识别结果进行匹配,可以是将第一识别结果中的文字信息进行切词,获知所述第一识别结果中的关键词或关键语句,这里的关键词或关键语句是指具有一定含义的词语或句子,如可以通过语料库进行词语匹配,基于匹配后的词语对句子进行语义分析等方式,获取第一识别结果中的关键词或关键句。将所获取的关键词或关键句与第二识别结果进行匹配,确定出匹配的关键词或关键句,得到匹配结果。这里的关键词或关键句可以是第一文本中词频超过设定阈值的词,或词频最高的一些词。关键句可以是包含关键词的句子。
本申请实施例中,作为一种实现方式,也可以是对第二识别结果中的关键词或关键句进行识别,并与第一识别结果中的文字内容进行匹配,只要能确定出第一识别结果和第二识别结果之间的匹配关键词或关键句即可。
具体地,获取所述第一识别结果中的第一文字内容,将所述第一文字内容分别与所述文本块的识别文字进行文本和/或语义文本匹配;查找出与所述第一文字内容的文本和/或语义匹配度最高的文本块识别文字,作为匹配结果。本申请实施例中,不仅是文字内容的匹配,还包括对语义的匹配,例如,当发言人的语音中涉及“通信”的关键词时,可以与第二识别结果中的“信道”、“信噪比”、“香农原理”等相关联,以准确确定出发言人的发言内容对应于第一文本的文字内容。
步骤204,基于所述匹配结果对所述第一文本中的匹配内容进行标识。
本申请实施例中,当确定出第一识别结果后,确定出第一识别结果与第二识别结果的匹配关键词或关键句,以此来确定出第二识别结果中与第一识别结果中的关键词或关键句匹配的内容,并确定出第二识别结果中的匹配内容在第一文本中的位置,基于所确定的位置对第一文本中的匹配内容进行标识,以突出显示该部分,以向发言人或听众标示该部分与当前的发言内容相关,从而可以方便发言人及听众基于该内容标识确定出发言人当前发言对应于展示界面的那个位置处的内容,方便听众能紧紧跟随发言人的发言内容。
本申请实施例中,可以调整与所述第一文字内容的文本和/或语义匹配度最高的文本块识别文字所在区域的显示属性,以区别于其他文本块识别文字。这里的显示属性包括显示亮度、显示灰度、显示颜色等显示参数,通过将匹配内容标识为不同于其他文字内容的方式,展现出发言人当前发言内容对应的第一文本的相关内容处。
图3为本申请实施例的文件处理方法的流程示意图,如图3所示,本申请实施例的文件处理方法包括以下处理步骤:
步骤301,采集第一音频,对所述第一音频进行语音识别,得到第一识别结果。
本申请实施例中,所述第一音频与第一文本相关联。第一音频是指发言人通过投影仪或显示屏幕将自己的发言内容向听众呈现,即结合所呈现内容进行相应的语音发言。典型的应用场景包括演讲,技术交流会、视频会议等。即本申请实施例的应用场景中,存在与第一音频的对应文字展示内容。
这里的第一音频主要是指发言人的讲话,如演讲、交流会议中发言人的语音发言等。采集到第一音频后,对该所采集的第一音频进行语音识别,识别为相应的文字内容。
这里,当对第一音频进行识别时,通过确定所述第一文本中的关键词,基于知识图谱库获取所述关键词的领域相关词,将所述领域相关词作为热词表;基于所述热词表对热词模型网络进行训练,基于所述热词模型网络对采集的第一音频进行语音识别,得到第一识别结果。这里,识别第一文本中的关键词,并构成相关热词表,从而提升热词表中关键词的准确性。本申请实施例是考虑到第一文本中的内容是发言人所基于的发言内容,其文字内容有着较高的准确性,只要对第一文本中的文字块进行准确识别,相应的文字内容是比较准确的,因此,以第一文本中的内容构建热词表,对第一音频的识别结果进行约束,能提升其语音识别的准确性。
作为一种实现方式,确定所述第二识别结果中的关键词,基于知识图谱库获取所述关键词的领域相关词,将所述领域相关词作为热词表;基于所述热词表对热词模型网络进行训练,基于所述热词模型网络对采集的第一音频进行语音识别,得到第一识别结果。该实现方式的实现原理与前述的实现原理相同,即通过第一图像的识别结果对音频的识别结果进行约束,从而提升语音识别的准确性。
步骤302,采集第一图像,获取所述第一图像中的所述第一文本的呈现界面,识别出所述呈现界面中的文本块;识别所述文本块中的文字,作为所述第二识别结果。
本申请实施例中,所述第一图像中包含所述第一文本基于第一应用启动的呈现界面。这里的第一图像可以是通过对发言人发言内容的投影屏幕进行直接采集的图像,如通过对投影或显示屏幕通过相机进行拍摄而获取第一图像,也可以是通过对发言人的发言所依据的文字内容的文件进行调用,获取当前所呈现的界面,作为第一图像。例如,当应用场景为演讲者基于PPT等文件进行演讲的场景时,可以通过演讲者进行PPT投放的电子设备获取演讲者当前展示界面的第一图像;此时的第一应用可以是PPT文件的应用如Office等。演讲者所展示的文件也可以是PDF、Word等。本申请实施例支持多种方式获取第一图像。
这里,可以通过第一文本的第一应用来获取第一文本当前显示界面对应的呈现界面,即本申请实施例中,需要对发言人当前的发言内容与第一文本中的展示内容相关联,以便对第一文本中的关联内容进行标识,方便发言人及听众获知当前的发言内容与PPT等文件的对应处,以便听众能跟随发言人的语音确定当前发言的相关重点或具体内容等。
本申请实施例中,步骤101和步骤102之间可以并行进行,其之间的时序并无先后顺序。也可以先获取第一图像,再对当前采集的第一音频进行文字识别等。
步骤303,将所述第一识别结果与所述第二识别结果进行匹配,得到匹配结果。
这里,将第一识别结果和第二识别结果进行匹配,可以是将第一识别结果中的文字信息进行切词,获知所述第一识别结果中的关键词或关键语句,这里的关键词或关键语句是指具有一定含义的词语或句子,如可以通过语料库进行词语匹配,基于匹配后的词语对句子进行语义分析等方式,获取第一识别结果中的关键词或关键句。将所获取的关键词或关键句与第二识别结果进行匹配,确定出匹配的关键词或关键句,得到匹配结果。这里的关键词或关键句可以是第一文本中词频超过设定阈值的词,或词频最高的一些词。关键句可以是包含关键词的句子。
本申请实施例中,作为一种实现方式,也可以是对第二识别结果中的关键词或关键句进行识别,并与第一识别结果中的文字内容进行匹配,只要能确定出第一识别结果和第二识别结果之间的匹配关键词或关键句即可。
具体地,获取所述第一识别结果中的第一文字内容,将所述第一文字内容分别与所述文本块的识别文字进行文本和/或语义文本匹配;查找出与所述第一文字内容的文本和/或语义匹配度最高的文本块识别文字,作为匹配结果。本申请实施例中,不仅是文字内容的匹配,还包括对语义的匹配,例如,当发言人的语音中涉及“通信”的关键词时,可以与第二识别结果中的“信道”、“信噪比”、“香农原理”等相关联,以准确确定出发言人的发言内容对应于第一文本的文字内容。
本申请实施例中,当对第一音频进行语音识别得到第一识别结果后,还需要对第一识别结果进行识别修正,以提升识别结果的识别准确率。具体地,作为一种实现方式,识别所述第一文字内容中的关键词,基于本地的知识图谱库获取所述关键词的领域相关词,将所述领域相关词作为热词表;基于所述热词表在热词模型网络进行训练,基于所述热词模型网络对所述第一文字内容进行修正。这里的热词模型网络中包含本地的先验识别词语构成的词语库,或者包含第一文本中的词语,当然也可以包含网络词典中的词语,以便对当前识别结果中的文字内容进行识别修正,以进一步提升识别结果的准确率。
作为一种实现方式,识别所述第一文字内容中的关键词,基于所述关键词进行知识图谱扩充,获取所述关键词的领域相关词,得到扩充数据;基于所述扩充数据在设定的优化模型进行词汇训练,对所述第一文字内容进行修正。
这里,基于所述关键词进行知识图谱扩充,即基于关键词到网络引擎或语料库中查找与该关联词关联的词语。优化模型包括LM(Levenberg-Marquardt)算法模型。
语音识别系统的识别性能依赖于语言模型和声学模型的语料覆盖,特别是语言模型,如果语料覆盖不全,会出现音同字不同等的识别错误,通常的解决方案去收集相关领域语料,或者人工去想些领域关键词作为种子,然后爬取语料,然后训练LM。而领域语料一般比较匮乏,对于某些语料保密性比较强(比如说银行等),一般很难获得相关语料。针对于此,本申请实施例中,首选根据当前识别领域中的后台少许识别文本如第一文本,通过关键词提取方法,提取若干个关键词。然后以这些关键词为root在知识图谱里检索到一两级的关联词,然后将这些所有关键词及其关联词,汇成一个热词表(hotword list),根据hotword list,构建热词解码网络,并实时的增强线上识别系统,同时以hotwords作为种子爬取相关语料,并训练LM模型。本申请实施例中,线上识别系统只是具有一定语料,如相关词典或有限文本中的相关词语,其必然存在特定领域的不完备性。因此,需要根据识别文本,分析错误,基于关键词提取方法,提取文本中的领域关键词,将这些关键词输入到知识图谱,找出这些词的领域相关词,输出一个热词表,一般可能是10个以上到100;基于热词表进行LM训练,对识别结果进行校正。
步骤304,调整与所述第一文字内容的文本和/或语义匹配度最高的文本块识别文字所在区域的显示属性,以区别于其他文本块识别文字。
本申请实施例中,当对第一识别结果中的第一文字内容进行校正后,需要基于校正后的内容再次与第二识别结果进行匹配。即基于修正后的所述第一文字内容,以及所述关键词的领域相关词,分别与所述文本块的识别文字进行文本和/或语义文本匹配,再次确定与所述第一文字内容的文本和/或语义匹配度最高的文本块识别文字;如果再次确定的文本块识别文字与之前标识的文本块识别文字不同,取消对所述之前标识的文本块的标识。
本申请实施例中,可以调整与所述第一文字内容的文本和/或语义匹配度最高的文本块识别文字所在区域的显示属性,以区别于其他文本块识别文字。这里的显示属性包括显示亮度、显示灰度、显示颜色等显示参数,通过将匹配内容标识为不同于其他文字内容的方式,展现出发言人当前发言内容对应的第一文本的相关内容处。
图4为本申请实施例的文件处理装置的组成结构示意图,如图4所示,本申请实施例的文件处理装置包括:
第一识别单元40,用于采集第一音频,对所述第一音频进行语音识别,得到第一识别结果;其中,所述第一音频与第一文本相关联;
第二识别单元41,用于采集第一图像,对所述第一图像进行文本识别,得到第二识别结果;其中,所述第一图像中包含所述第一文本基于第一应用启动的呈现界面;
匹配单元42,用于将所述第一识别结果与所述第二识别结果进行匹配,得到匹配结果;
标识单元43,用于基于所述匹配结果对所述第一文本中的匹配内容进行标识。
本申请实施例中,作为一种实现方式,所述第二识别单元41,还用于:
获取所述第一图像中的所述第一文本的呈现界面,识别出所述呈现界面中的文本块;
识别所述文本块中的文字,作为所述第二识别结果。
本申请实施例中,作为一种实现方式,所述匹配单元42,还用于:
获取所述第一识别结果中的第一文字内容,将所述第一文字内容分别与所述文本块的识别文字进行文本和/或语义文本匹配;
查找出与所述第一文字内容的文本和/或语义匹配度最高的文本块识别文字,作为匹配结果。
本申请实施例中,作为一种实现方式,所述标识单元43,还用于:
调整与所述第一文字内容的文本和/或语义匹配度最高的文本块识别文字所在区域的显示属性,以区别于其他文本块识别文字。
本申请实施例中,识别所述第一文字内容中的关键词,基于本地的知识图谱库获取所述关键词的领域相关词,将所述领域相关词作为热词表;基于所述热词表在热词模型网络进行训练,基于所述热词模型网络对所述第一文字内容进行修正。或者,识别所述第一文字内容中的关键词,基于所述关键词进行知识图谱扩充,获取所述关键词的领域相关词,得到扩充数据;基于所述扩充数据在设定的优化模型进行词汇训练,对所述第一文字内容进行修正。
这样,所述标识单元43,还用于:基于修正后的所述第一文字内容,以及所述关键词的领域相关词,分别与所述文本块的识别文字进行文本和/或语义文本匹配,再次确定与所述第一文字内容的文本和/或语义匹配度最高的文本块识别文字;如果再次确定的文本块识别文字与之前标识的文本块识别文字不同,取消对所述之前标识的文本块的标识。
本申请实施例中,对所述第一音频进行语音识别,得到第一识别结果,包括:确定所述第一文本中的关键词,基于知识图谱库获取所述关键词的领域相关词,将所述领域相关词作为热词表;基于所述热词表对热词模型网络进行训练,基于所述热词模型网络对采集的第一音频进行语音识别,得到第一识别结果。或者,作为一种实现方式,确定所述第二识别结果中的关键词,基于知识图谱库获取所述关键词的领域相关词,将所述领域相关词作为热词表;基于所述热词表对热词模型网络进行训练,基于所述热词模型网络对采集的第一音频进行语音识别,得到第一识别结果。
本申请实施例的文件处理装置中,第一识别单元40、第二识别单元41、匹配单元42和标识单元43,在实际应用中均可由所述终端中的中央处理器(CPU,Central ProcessingUnit)、数字信号处理器(DSP,Digital Signal Processor)、微控制单元(MCU,Microcontroller Unit)或可编程门阵列(FPGA,Field-Programmable Gate Array)实现。
需要说明的是,本申请实施例的文件处理装置,由于该文件处理装置解决问题的原理与前述的文件处理方法相似,因此,文件处理装置的实施过程及实施原理均可以参见前述方法的实施过程及实施原理描述,重复之处不再赘述。
本申请实施例还记载了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时至少用于执行图1至图3任一所示方法的步骤。所述计算机可读存储介质具体可以为存储器。
本申请实施例还提供了一种电子设备。图5为本申请实施例的电子设备的硬件结构示意图,如图5所示,电子设备包括:用于进行数据传输的通信组件63、至少一个处理器61和用于存储能够在处理器61上运行的计算机程序的存储器62。电子设备中的各个组件通过总线系统64耦合在一起。可理解,总线系统64用于实现这些组件之间的连接通信。总线系统64除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线系统64。
其中,所述处理器61执行所述计算机程序时至少执行图1至图5任一所示方法的步骤。
可以理解,存储器62可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器62旨在包括但不限于这些和任意其它适合类型的存储器。
上述本申请实施例揭示的方法可以应用于处理器61中,或者由处理器61实现。处理器61可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器61中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器61可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器61可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器62,处理器61读取存储器62中的信息,结合其硬件完成前述方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种文件处理方法,包括:
采集第一音频,对所述第一音频进行语音识别,得到第一识别结果;其中,所述第一音频与第一文本相关联;以及
采集第一图像,对所述第一图像进行文本识别,得到第二识别结果;其中,所述第一图像中包含所述第一文本基于第一应用启动的呈现界面;
将所述第一识别结果与所述第二识别结果进行匹配,得到匹配结果;
基于所述匹配结果对所述第一文本中的匹配内容进行标识。
2.根据权利要求1所述的方法,所述对所述第一图像进行文本识别,得到第二识别结果,包括:
获取所述第一图像中的所述第一文本的呈现界面,识别出所述呈现界面中的文本块;
识别所述文本块中的文字,作为所述第二识别结果。
3.根据权利要求2所述的方法,所述将所述第一识别结果与所述第二识别结果进行匹配,得到匹配结果,包括:
获取所述第一识别结果中的第一文字内容,将所述第一文字内容分别与所述文本块的识别文字进行文本和/或语义文本匹配;
查找出与所述第一文字内容的文本和/或语义匹配度最高的文本块识别文字,作为匹配结果。
4.根据权利要求3所述的方法,所述基于所述匹配结果对所述第二识别结果中的识别内容进行标识,包括:
调整与所述第一文字内容的文本和/或语义匹配度最高的文本块识别文字所在区域的显示属性,以区别于其他文本块识别文字。
5.根据权利要求3所述的方法,所述方法还包括:
识别所述第一文字内容中的关键词,基于本地的知识图谱库获取所述关键词的领域相关词,将所述领域相关词作为热词表;
基于所述热词表在热词模型网络进行训练,基于所述热词模型网络对所述第一文字内容进行修正。
6.根据权利要求3所述的方法,所述方法还包括:
识别所述第一文字内容中的关键词,基于所述关键词进行知识图谱扩充,获取所述关键词的领域相关词,得到扩充数据;
基于所述扩充数据在设定的优化模型进行词汇训练,对所述第一文字内容进行修正。
7.根据权利要求5或6所述的方法,所述方法还包括:
基于修正后的所述第一文字内容,以及所述关键词的领域相关词,分别与所述文本块的识别文字进行文本和/或语义文本匹配,再次确定与所述第一文字内容的文本和/或语义匹配度最高的文本块识别文字;
如果再次确定的文本块识别文字与之前标识的文本块识别文字不同,取消对所述之前标识的文本块的标识。
8.根据权利要求1所述的方法,所述采集第一音频,对所述第一音频进行语音识别,得到第一识别结果,包括:
确定所述第一文本中的关键词,基于知识图谱库获取所述关键词的领域相关词,将所述领域相关词作为热词表;
基于所述热词表对热词模型网络进行训练,基于所述热词模型网络对采集的第一音频进行语音识别,得到第一识别结果。
9.根据权利要求1所述的方法,所述采集第一音频,对所述第一音频进行语音识别,得到第一识别结果,包括:
确定所述第二识别结果中的关键词,基于知识图谱库获取所述关键词的领域相关词,将所述领域相关词作为热词表;
基于所述热词表对热词模型网络进行训练,基于所述热词模型网络对采集的第一音频进行语音识别,得到第一识别结果。
10.一种文件处理装置,包括:
第一识别单元,用于采集第一音频,对所述第一音频进行语音识别,得到
第一识别结果;其中,所述第一音频与第一文本相关联;
第二识别单元,用于采集第一图像,对所述第一图像进行文本识别,得到第二识别结果;其中,所述第一图像中包含所述第一文本基于第一应用启动的呈现界面;
匹配单元,用于将所述第一识别结果与所述第二识别结果进行匹配,得到匹配结果;
标识单元,用于基于所述匹配结果对所述第一文本中的匹配内容进行标识。
11.根据权利要求10所述的装置,所述第二识别单元,还用于:
获取所述第一图像中的所述第一文本的呈现界面,识别出所述呈现界面中的文本块;
识别所述文本块中的文字,作为所述第二识别结果。
12.根据权利要求11所述的装置,所述匹配单元,还用于:
获取所述第一识别结果中的第一文字内容,将所述第一文字内容分别与所述文本块的识别文字进行文本和/或语义文本匹配;
查找出与所述第一文字内容的文本和/或语义匹配度最高的文本块识别文字,作为匹配结果。
13.根据权利要求12所述的装置,所述标识单元,还用于:
调整与所述第一文字内容的文本和/或语义匹配度最高的文本块识别文字所在区域的显示属性,以区别于其他文本块识别文字。
14.一种电子设备,包括至少一个处理器和用于存储能够在处理器上运行的计算机程序的存储器,所述计算机程序被所述处理器执行时,能够执行权利要求1至9任一项所述的文件处理方法的步骤。
CN202111155010.9A 2021-09-29 2021-09-29 文件处理方法及装置、电子设备 Pending CN113849606A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111155010.9A CN113849606A (zh) 2021-09-29 2021-09-29 文件处理方法及装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111155010.9A CN113849606A (zh) 2021-09-29 2021-09-29 文件处理方法及装置、电子设备

Publications (1)

Publication Number Publication Date
CN113849606A true CN113849606A (zh) 2021-12-28

Family

ID=78977131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111155010.9A Pending CN113849606A (zh) 2021-09-29 2021-09-29 文件处理方法及装置、电子设备

Country Status (1)

Country Link
CN (1) CN113849606A (zh)

Similar Documents

Publication Publication Date Title
US11756539B2 (en) System, apparatus, and method for processing natural language, and non-transitory computer readable recording medium
US10176804B2 (en) Analyzing textual data
US20030187632A1 (en) Multimedia conferencing system
CN110853615B (zh) 一种数据处理方法、装置及存储介质
CN109979450B (zh) 信息处理方法、装置及电子设备
CN111814770A (zh) 一种新闻视频的内容关键词提取方法、终端设备及介质
CN114556328A (zh) 数据处理方法、装置、电子设备和存储介质
US7949651B2 (en) Disambiguating residential listing search results
CN111832308A (zh) 语音识别文本连贯性处理方法和装置
CN112382295B (zh) 语音识别方法、装置、设备及可读存储介质
CN111881297A (zh) 语音识别文本的校正方法及装置
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
US11893813B2 (en) Electronic device and control method therefor
CN114492375A (zh) 文本处理方法和装置、电子设备以及计算机可读存储介质
CN109635125B (zh) 一种词汇图谱搭建方法及电子设备
CN111062221A (zh) 数据处理方法、装置、电子设备以及存储介质
CN113111658B (zh) 校验信息的方法、装置、设备和存储介质
CN113535925A (zh) 语音播报方法、装置、设备及存储介质
WO2023142590A1 (zh) 手语视频的生成方法、装置、计算机设备及存储介质
CN114155841A (zh) 语音识别方法、装置、设备及存储介质
CN113849606A (zh) 文件处理方法及装置、电子设备
CN108831473B (zh) 一种音频处理方法及装置
WO2021120174A1 (zh) 数据处理方法、装置、电子设备和存储介质
WO2021102754A1 (zh) 数据处理方法、装置和存储介质
CN113763947A (zh) 一种语音意图识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination