CN113722508A - 词云展示方法及装置、存储介质及电子设备 - Google Patents
词云展示方法及装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN113722508A CN113722508A CN202111026573.8A CN202111026573A CN113722508A CN 113722508 A CN113722508 A CN 113722508A CN 202111026573 A CN202111026573 A CN 202111026573A CN 113722508 A CN113722508 A CN 113722508A
- Authority
- CN
- China
- Prior art keywords
- word
- target
- signal
- preset
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000005236 sound signal Effects 0.000 claims abstract description 110
- 238000007781 pre-processing Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请提供了一种词云展示方法及装置、存储介质及电子设备,该方法包括:实时采集预设场景的音频信号;对所采集的音频信号进行语音识别,得到音频信号对应的文本序列;基于文本序列,对预设场景对应的文本库进行更新;基于更新后的文本库中包括的文本序列,生成预设场景对应的当前词云,并将当前词云加载至预设的显示装置进行展示。可见,本申请方案,通过实时采集预设场景的音频信号,自动将音频信号转换为文本序列,从而基于文本序列对预设场景对应的文本库进行更新,基于文本库中的文本序列,生成并展示词云,而无需人工录入文本信息,从而提高了词云生成的效率,进而提高了词云展示的效率。
Description
技术领域
本申请涉及信号处理和文本处理技术领域,尤其涉及一种词云展示方法及装置、存储介质及电子设备。
背景技术
词云,就是对文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使观看对象非常直观的了解文本的主旨。
现有技术中,在一些场景下,需要人工录入文本信息,例如,会议场景下,需要人工录入会议内容,再基于人工录入的文本信息,生成并展示词云,而人工录入文本信息,导致词云生成效率较低。
发明内容
本申请提供了一种词云展示方法及装置、存储介质及电子设备,目的在于解决而人工录入文本信息,导致词云生成效率较低的问题。
为了实现上述目的,本申请提供了以下技术方案:
一种词云展示方法,包括:
实时采集预设场景的音频信号;
对所采集的音频信号进行语音识别,得到所述音频信号对应的文本序列;
基于所述文本序列,对所述预设场景对应的文本库进行更新;
基于更新后的文本库中包括的文本序列,生成所述预设场景对应的当前词云,并将所述当前词云加载至预设的显示装置进行展示。
上述的方法,可选的,所述基基于更新后的文本库中包括的文本序列,生成所述预设场景对应的当前词云,包括:
对更新后的文本库中包括的各个文本序列进行分词处理,得到所述文本库对应的多个词汇,并将所述文本库对应的每个词汇确定为目标词汇;
统计各个目标词汇的词频;
依据各个目标词汇和各个目标词汇的词频,按照预设的词云生成规则,生成所述预设场景对应的当前词云。
上述的方法,可选的,所述依据各个目标词汇和各个目标词汇的词频,按照预设的词云生成规则,生成所述预设场景对应的当前词云,包括:
依据各个目标词汇的词频,确定每个目标词汇的展示字体、和所述展示字体的大小;
基于各个目标词汇、以及每个目标词汇的展示字体、和所述展示字体的大小,通过预设的展示格式,生成所述预设场景对应的当前词云。
上述的方法,可选的,所述对所采集的音频信号进行语音识别,得到所述音频信号对应的文本序列,包括:
对所采集的音频信号进行信号预处理,得到所述音频信号对应的多帧目标信号;
对每一帧目标信号进行特征提取,得到每一帧目标信号的声学特征,
将各帧目标信号的声学特征,输入至预先构建的声学模型中,得到所述音频信号的声学模型得分;
获取所述音频信号的语言模型得分;
基于所述声学模型得分和所述语言模型得分,通过预设的解码器,得到所述音频信号对应的文本序列。
上述的方法,可选的,所述对所采集的音频信号进行信号预处理,得到所述音频信号对应的多帧目标信号,包括:
对所采集的音频信号进行预加重处理,得到第一信号;
对所述第一信号进行分帧处理,得到多帧第二信号;
针对每一帧第二信号,对所述第二信号进行加窗处理,并对加窗处理后的第二信号进行快速傅里叶变换,得到所述第二信号对应的频域信号;
对每一帧频域信号进行端点检测处理,得到每一帧频域信号对应的目标信号。
一种词云展示装置,包括:
采集单元,用于实时采集预设场景的音频信号;
语音识别单元,用于对所采集的音频信号进行语音识别,得到所述音频信号对应的文本序列;
更新单元,用于基于所述文本序列,对所述预设场景对应的文本库进行更新;
展示单元,用于基于更新后的文本库中包括的文本序列,生成所述预设场景对应的当前词云,并将所述当前词云加载至预设的显示装置进行展示。
上述的装置,可选的,所述展示单元在基基于更新后的文本库中包括的文本序列,生成所述预设场景对应的当前词云时,具体用于:
对更新后的文本库中包括的各个文本序列进行分词处理,得到所述文本库对应的多个词汇,并将所述文本库对应的每个词汇确定为目标词汇;
统计各个目标词汇的词频;
依据各个目标词汇和各个目标词汇的词频,按照预设的词云生成规则,生成所述预设场景对应的当前词云。
上述的装置,可选的,所述展示单元在依据各个目标词汇和各个目标词汇的词频,按照预设的词云生成规则,生成所述预设场景对应的当前词云时,具体用于:
依据各个目标词汇的词频,确定每个目标词汇的展示字体、和所述展示字体的大小;
基于各个目标词汇、以及每个目标词汇的展示字体、和所述展示字体的大小,通过预设的展示格式,生成所述预设场景对应的当前词云。
一种存储介质,所述存储介质存储有指令集,其中,所述指令集被处理器执行时实现如上述的词云展示方法。
一种电子设备,其特征在于,包括:
存储器,用于存储至少一组指令集;
处理器,用于执行所述存储器中存储的指令集,通过执行所述指令集实现如上述的词云展示方法。
与现有技术相比,本申请包括以下优点:
本申请提供了一种词云展示方法及装置、存储介质及电子设备,该方法包括:实时采集预设场景的音频信号;对所采集的音频信号进行语音识别,得到音频信号对应的文本序列;基于文本序列,对预设场景对应的文本库进行更新;基于更新后的文本库中包括的文本序列,生成预设场景对应的当前词云,并将当前词云加载至预设的显示装置进行展示。可见,本申请方案,通过实时采集预设场景的音频信号,自动将音频信号转换为文本序列,从而基于文本序列对预设场景对应的文本库进行更新,基于文本库中的文本序列,生成并展示词云,而无需人工录入文本信息,从而提高了词云生成的效率,进而提高了词云展示的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种词云展示方法的方法流程图;
图2为本申请提供的一种词云展示方法的又一方法流程图;
图3为本申请提供的一种词云展示方法的再一方法流程图;
图4为本申请提供的一种词云展示方法的再一方法流程图;
图5为本申请提供的一种词云展示方法的示例图;
图6为本申请提供的一种词云展示装置的结构示意图;
图7为本申请提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本申请公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本申请公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本申请可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本申请实施例提供了一种词云展示方法,该方法可以应用在多种系统平台,其执行主体可以为运行在各种移动设备的处理器,所述方法的流程图如图1所示,具体包括:
S101、实时采集预设场景的音频信号。
本实施例中,实时采集预设场景的音频信号,其中,预设场景包括但不限于会议场景。
对实时采集预设场景的音频信号进行举例说明:
在会议场景中,实时采集讲话者的音频信号或在录音播放场景中,实时采集播放的录音的音频信号。
S102、对所采集的音频信号进行语音识别,得到音频信号对应的文本序列。
本实施例中,对所采集的音频信号进行语音识别,将所采集的音频信号转换为对应的文本,得到音频信号的文本序列。
参阅图2,对对所采集的音频信号进行语音识别,得到音频信号对应的文本序列的过程,具体包括以下步骤:
S201、对所采集的音频信号进行信号预处理,得到音频信号对应的多帧目标信号。
本实施例中,对所采集的音频信号进行信号预处理,得到音频信号对应的多帧目标信号。
具体的,参阅图3,对所采集的音频信号进行信号预处理,得到音频信号对应的多帧目标信号的过程,包括以下步骤:
S301、对所采集的音频信号进行预加重处理,得到第一信号。
本实施例中,对所采集的音频信号进行与预加重处理,将预加重处理的音频信号确定为第一信号。
具体的,利用一阶高通滤波器,对音频信号进行一阶差分处理,其中,一阶高通滤波器为y(n)=x(n)-αx(n-1),x(n)为音频信号,α为预加重系数,可选的,0.9<α<1.0。
本实施例中,通过对所采集的音频信号进行预加重处理,从而增大音频信号在高频部分的幅度,这样高频部分差分值大,低频部分差分值小起到一个平衡频谱的作用,进而提高信噪比。
S302、对第一信号进行分帧处理,得到多帧第二信号。
本实施例中,对第一信号进行分帧处理,以实现将第一信号划分为多帧信号,将对第一信号划分后的每一帧信号确定为第二信号。
具体的,通过可移动的有限长度的窗口进行加权计算,实现对第一信号分帧,也就是预设滑动窗,从预设滑动窗从第一信号的起始位置滑动至结束位置,从而实现对第一信号进行分帧。
本实施例中,通过对第一信号进行分帧处理,得到多帧稳定的第二信号。
S303、针对每一帧第二信号,对第二信号进行加窗处理,并对加窗处理后的第二信号进行快速傅里叶变换,得到第二信号对应的频域信号。
本实施中,针对每一帧第二信号,对第二信号进行加窗处理,也就是将第二信号乘以预设的窗序列,可选的,窗序列包括但不限于汉明窗。
本实施例中,针对每一帧第二信号,对加窗处理后的第二信号进行快速傅里叶变换,已将第二信号从时域变换至频域,具体的,对加窗处理的第二信号进行N点快速傅里叶变换FFT,也就是基于加窗处理的第二信号,通过预设计算公式,得到第二信号对应的频域信号,其中,预设计算公式为N可以是256或512。
本是实施例中,通过对每一帧第二信号进行加窗处理,使得每一帧第二信号都表现出周期函数的特性,从而使各帧第二信号变得更加连续。同时加窗操作可以防止音频频谱的泄露,尽量保持原始音频信号的连续性,让一帧信号的幅度在两端渐变到0以增加信号左右两端的连续性得到更高质量的频谱。
S304、对每一帧频域信号进行端点检测处理,得到每一帧频域信号对应的目标信号。
本实施例中,针对每一帧频域信号,对该频域信号进行端点检测处理,具体的,通过计算同一帧内频域信号变化的幅度(短时能量)与同一帧内采样信号经过零的次数来进行判定,当检测到语音时输出为1,否则输出为0,从而实现对每一帧频域信号进行端点检测处理,得到每一帧频域信号对应的目标信号。
本实施例中,通过对每一帧频域信号进行端点检测处理,从频域信号中识别和消除长时间的静音片段,确定有效信号的起点和终点位置,以降低后续处理静音片段带来的干扰。
本实施例中,通过对音频信号进行信号预处理,从而得到多帧高保真无失真的目标信号,提高后续特征提取的准确度。
S202、对每一帧目标信号进行特征提取,得到每一帧目标信号的声学特征。
本实施例中,对每一帧目标信号进行特征提取,也就是从每一帧目标信号中提取能表征其本质特征具有辨识性的表示参数的过程,从而得到每一帧目标信号的声学特征,其中,声学特征包括但不限于音色的能量集中区、共振峰频率、共振峰强度和带宽,以及表示语音韵律特性的时长、基频和平均语声功率。
具体的,利用特征提取算法,对每一帧目标信号进行特征提取,特征提取算法包括但不限于MFCC(Mel-Frequency Cepstrum Coefficient,梅尔频率倒谱系数)或Fbank(MelFilterBank,滤波器组)。
本实施例中,利用MFCC或Fbank,对目标信号进行特征提取的过程请参见现有技术,此处不再赘述。
S203、将各帧目标信号的声学特征,输入至预先构建的声学模型中,得到音频信号的声学模型得分。
本实施例中,将各帧目标信号的声学特征,输入至预先构建的声学模型中,得到音频信号的声学模型得分,也就是利用声学模型,将各帧目标信号,转化为声学表示的输出,即找到某个音频片段属于某个声学符号的概率。
可选的,声学模型可以是隐式马尔可夫模型HMM,HMM是一种关于时序信息的概率模型,在语音识别中主要用来刻画一个音素内部子状态的转换过程。把声学特征序列识别为对应HMM的状态序列,由此来解决特征序列到多个语音建模单元之间的对应关系。整个过程可以描述为由一个隐藏的马尔可夫链随机生成不可观测的隐状态序列,再由各个隐状态生成观测值序列。
需要说明的是,在声学模型进行设计之前需要先确定建模单元,对于中文语音识别来说,声学建模单元的好坏对系统的识别效果有显著影响。由于中文语言是一种音节语言,每个字的发音都是由声母加韵母的音节构成,同时汉语又是一种有调语言,决定了汉语除了采用常用的语音识别方法外,还拥有自身的许多特点。对声调的建模问题是汉语语音识别不同于其他语言的关键问题。
S204、获取音频信号的语言模型得分。
本实施例中,根据预设的语言模型,获取音频信号的语言模型得分。其中,语言模型用来计算某个句子(词序列)出现的概率,简单地说,就是计算一个句子在语法上是否正确的概率。语言模型是独立于声学模型存在,一般是通过外部语料库训练得到。在语音识别过程中语言模型可以理解为解决多音字的替换问题,在声学模型给出发音序列之后,语言模型利用语言学知识从候选文字序列中找出概率最大的文字序列。
S205、基于声学模型得分和语言模型得分,通过预设的解码器,得到音频信号对应的文本序列。
本实施例中,基于声学模型得分和语言模型得分,通过预设的解码器,得到音频信号对应的文本序列,具体的,基于声学模型得分、语言模型得分、以及预设的发音字典,确定得分最高的词序列路径,将得分最高的词序列路径确定为音频信号对应的文本序列。
本实施例中,解码器采用加权有限状态变换器(Weighted Finite StateTransducer,WFST),它将声学模型的输出、发音词典及语言模型的输出融合到一个搜索网络中,构建一个从上下文相关音素子状态到词的变换器。解码过程就是在这个WFST有向图中进行路径搜索从而找到最优的输出字符序列。
S103、基于文本序列,对预设场景对应的文本库进行更新。
本实施例中,预先构建预设场景对应的文本库,文本库中存储在预设场景中采集的音频信号对应的文本序列。
本实施例中,基于当前采集的预设场景的音频信号对应的文本序列,对文本库进行更新,具体的,将文本序列存储至文本库中,实现对文本库的更新,即实现了对文本序列的积累。
S104、基于更新后的文本库中包括的文本序列,生成预设场景对应的当前词云,并将当前词云加载至预设的显示装置进行展示。
本实施例中,基于更新后的文本库中包括的文本序列,生成预设场景对应的当前词云,具体的,对更新后的文本库中包括的文本序列进行分词处理,并基于分词处理得到的结果,生成预设场景对应的当前词云。
本实施例中,将所生成的当前词云加载至预设的显示装置进行展示,以实现对显示装置中展示的词云随着音频的采集进行实时更新。
参阅图4,基于更新后的文本库中包括的文本序列,生成预设场景对应的当前词云的过程,具体包括以下步骤:
S401、对更新后的文本库中包括的各个文本序列进行分词处理,得到文本库对应的多个词汇,并将文本库对应的每个词汇确定为目标词汇。
本实施例中,对更新后的文本库中包括的各个文本序列进行分词处理,具体的,利用自然语言处理算法,对更新后的文本库中包括的各个文本序列进行语义识别,从而实现对各个文本序列的分词,得到文本库对应的多个词汇。
本实施例中,将文本库对应的每个词汇确定为目标词汇。
S402、统计各个目标词汇的词频。
S403、依据各个目标词汇和各个目标词汇的词频,按照预设的词云生成规则,生成预设场景对应的当前词云。
本实施例中,依据各个目标词汇的词频,按照预设的词云生成规则,对各个目标词汇进行处理,得到预设场景对应的当前词云。
具体的,依据各个目标词汇和各个目标词汇的词频,按照预设的词云生成规则,生成预设场景对应的当前词云的过程,具体包括以下步骤:
依据各个目标词汇的词频,确定每个目标词汇的展示字体、和展示字体的大小;
基于各个目标词汇、以及每个目标词汇的展示字体、和展示字体的大小,通过预设的展示格式,生成预设场景对应的当前词云。
本实施例中,依据各个目标词汇的词频,确定每个目标词汇的展示字体,也就是确定每个目标词汇在展示状态下所呈现的字体。本实施例中,确定展示字体的大小,也就是确定展示字体的字号。
本实施例中,预设展示格式,展示格式用于指示展示每个目标词汇展示框的样式和位置信息。
本实施例中,基于各个目标词汇、以及每个目标词汇的展示字体、和展示字体的大小,通过预设的展示格式,生成预设场景对应的当前词云。
可选的,在生成当前词云之前,还可以基于目标词汇的词频,对各个目标词汇进行排序,生成排序文档。
本申请实施例提供的词云展示方法,实时采集预设场景的音频信号;对所采集的音频信号进行语音识别,得到音频信号对应的文本序列;基于文本序列,对预设场景对应的文本库进行更新;基于更新后的文本库中包括的文本序列,生成预设场景对应的当前词云,并将当前词云加载至预设的显示装置进行展示。应用本申请实施例提供的词云展示方法,通过实时采集预设场景的音频信号,自动将音频信号转换为文本序列,从而基于文本序列对预设场景对应的文本库进行更新,基于文本库中的文本序列,生成并展示词云,而无需人工录入文本信息,从而提高了词云生成的效率,进而提高了词云展示的效率。
参阅图5,对上述本申请提及的词云展示方法进行举例说明如下:
S1:音频信号预处理,对输入的音频信号进行噪声消除和端点检测等预处理得到一段高保真无噪声的语音,降低对后续处理过程的干扰;
S2:特征提取,对预处理后的音频信号进行特征提取,提取出能代表音频信号的数字化特征向量,也就是提取预处理的音频信号的声学特征;
S3:声学模型,将上一步提取到的声学特征作为输入,对声学建模单元进行识别,得到音频信号的声学模型得分;
S4:语言模型,通过学习训练语料中词与词之间的某种约束关系,计算一个句子在语法上是否正确的概率为下一步解码过程提供语言学先验知识,得到音频信号的语言模型得分;
S5:解码,构建一个解码网络,综合声学模型分数、语言学模型分数和发音字典给出得分最高的词序列路径,作为该音频信号的文本序列。
S6:识别词语集合,对识别出的文本序列进行实时动态存储和汇总,识别其中的词汇,形成实时词汇清单。
S7:词频统计,对已有的词汇清单中词汇出现的次数进行统计。
S8:词频排序,对统计后的词频进行排序,同时根据词频确定词汇展示时的文字大小。
S9:词云展示,通过应用程序和显示器,在前台实时展示词云结果。
需要说明的是,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。
应当理解,本申请公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本申请公开的范围在此方面不受限制。
与图1所述的方法相对应,本申请实施例还提供了一种词云展示装置,用于对图1中方法的具体实现,其结构示意图如图6示,具体包括:
采集单元601,用于实时采集预设场景的音频信号;
语音识别单元602,用于对所采集的音频信号进行语音识别,得到所述音频信号对应的文本序列;
更新单元603,用于基于所述文本序列,对所述预设场景对应的文本库进行更新;
展示单元604,用于基于更新后的文本库中包括的文本序列,生成所述预设场景对应的当前词云,并将所述当前词云加载至预设的显示装置进行展示。
本申请实施例提供的词云展示装置,实时采集预设场景的音频信号;对所采集的音频信号进行语音识别,得到音频信号对应的文本序列;基于文本序列,对预设场景对应的文本库进行更新;基于更新后的文本库中包括的文本序列,生成预设场景对应的当前词云,并将当前词云加载至预设的显示装置进行展示。应用本申请实施例提供的词云展示装置,通过实时采集预设场景的音频信号,自动将音频信号转换为文本序列,从而基于文本序列对预设场景对应的文本库进行更新,基于文本库中的文本序列,生成并展示词云,而无需人工录入文本信息,从而提高了词云生成的效率,进而提高了词云展示的效率。
在本申请的一个实施例中,基于前述方案,展示单元604在基基于更新后的文本库中包括的文本序列,生成所述预设场景对应的当前词云时,具体用于:
对更新后的文本库中包括的各个文本序列进行分词处理,得到所述文本库对应的多个词汇,并将所述文本库对应的每个词汇确定为目标词汇;
统计各个目标词汇的词频;
依据各个目标词汇和各个目标词汇的词频,按照预设的词云生成规则,生成所述预设场景对应的当前词云。
在本申请的一个实施例中,基于前述方案,展示单元604在依据各个目标词汇和各个目标词汇的词频,按照预设的词云生成规则,生成所述预设场景对应的当前词云时,具体用于:
依据各个目标词汇的词频,确定每个目标词汇的展示字体、和所述展示字体的大小;
基于各个目标词汇、以及每个目标词汇的展示字体、和所述展示字体的大小,通过预设的展示格式,生成所述预设场景对应的当前词云。
在本申请的一个实施例中,基于前述方案,语音识别单元602具体用于:
对所采集的音频信号进行信号预处理,得到所述音频信号对应的多帧目标信号;
对每一帧目标信号进行特征提取,得到每一帧目标信号的声学特征,
将各帧目标信号的声学特征,输入至预先构建的声学模型中,得到所述音频信号的声学模型得分;
获取所述音频信号的语言模型得分;
基于所述声学模型得分和所述语言模型得分,通过预设的解码器,得到所述音频信号对应的文本序列。
在本申请的一个实施例中,基于前述方案,语音识别单元602在对所采集的音频信号进行信号预处理,得到所述音频信号对应的多帧目标信号时,具体用于:
对所采集的音频信号进行预加重处理,得到第一信号;
对所述第一信号进行分帧处理,得到多帧第二信号;
针对每一帧第二信号,对所述第二信号进行加窗处理,并对加窗处理后的第二信号进行快速傅里叶变换,得到所述第二信号对应的频域信号;
对每一帧频域信号进行端点检测处理,得到每一帧频域信号对应的目标信号。
本申请实施例还提供了一种存储介质,所述存储介质存储有指令集,其中,在所述指令集运行时执行以下操作:
获取待处理表单对应的预定形式的多媒体数据对象;所述待处理表单包括资产信息表或交易录入单;
识别所述多媒体数据对象,获取所述多媒体数据对象中包括的各个要素信息;
基于各个要素信息,确定所述待处理表单的表单类型;
确定资产管理系统中与所述表单类型对应的词云展示界面;
将各个要素词云展示至所述词云展示界面中。
本申请实施例还提供了一种电子设备,其结构示意图如图7所示,具体包括存储器701,用于存储至少一组指令集;处理器702,用于执行所述存储器中存储的指令集,通过执行所述指令集实现以下操作:
实时采集预设场景的音频信号;
对所采集的音频信号进行语音识别,得到所述音频信号对应的文本序列;
基于所述文本序列,对所述预设场景对应的文本库进行更新;
基于更新后的文本库中包括的文本序列,生成所述预设场景对应的当前词云,并将所述当前词云加载至预设的显示装置进行展示。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本申请公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
以上描述仅为本申请公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种词云展示方法,其特征在于,包括:
实时采集预设场景的音频信号;
对所采集的音频信号进行语音识别,得到所述音频信号对应的文本序列;
基于所述文本序列,对所述预设场景对应的文本库进行更新;
基于更新后的文本库中包括的文本序列,生成所述预设场景对应的当前词云,并将所述当前词云加载至预设的显示装置进行展示。
2.根据权利要求1所述的方法,其特征在于,所述基基于更新后的文本库中包括的文本序列,生成所述预设场景对应的当前词云,包括:
对更新后的文本库中包括的各个文本序列进行分词处理,得到所述文本库对应的多个词汇,并将所述文本库对应的每个词汇确定为目标词汇;
统计各个目标词汇的词频;
依据各个目标词汇和各个目标词汇的词频,按照预设的词云生成规则,生成所述预设场景对应的当前词云。
3.根据权利要求2所述的方法,其特征在于,所述依据各个目标词汇和各个目标词汇的词频,按照预设的词云生成规则,生成所述预设场景对应的当前词云,包括:
依据各个目标词汇的词频,确定每个目标词汇的展示字体、和所述展示字体的大小;
基于各个目标词汇、以及每个目标词汇的展示字体、和所述展示字体的大小,通过预设的展示格式,生成所述预设场景对应的当前词云。
4.根据权利要求1所述的方法,其特征在于,所述对所采集的音频信号进行语音识别,得到所述音频信号对应的文本序列,包括:
对所采集的音频信号进行信号预处理,得到所述音频信号对应的多帧目标信号;
对每一帧目标信号进行特征提取,得到每一帧目标信号的声学特征,
将各帧目标信号的声学特征,输入至预先构建的声学模型中,得到所述音频信号的声学模型得分;
获取所述音频信号的语言模型得分;
基于所述声学模型得分和所述语言模型得分,通过预设的解码器,得到所述音频信号对应的文本序列。
5.根据权利要求4所述的方法,其特征在于,所述对所采集的音频信号进行信号预处理,得到所述音频信号对应的多帧目标信号,包括:
对所采集的音频信号进行预加重处理,得到第一信号;
对所述第一信号进行分帧处理,得到多帧第二信号;
针对每一帧第二信号,对所述第二信号进行加窗处理,并对加窗处理后的第二信号进行快速傅里叶变换,得到所述第二信号对应的频域信号;
对每一帧频域信号进行端点检测处理,得到每一帧频域信号对应的目标信号。
6.一种词云展示装置,其特征在于,包括:
采集单元,用于实时采集预设场景的音频信号;
语音识别单元,用于对所采集的音频信号进行语音识别,得到所述音频信号对应的文本序列;
更新单元,用于基于所述文本序列,对所述预设场景对应的文本库进行更新;
展示单元,用于基于更新后的文本库中包括的文本序列,生成所述预设场景对应的当前词云,并将所述当前词云加载至预设的显示装置进行展示。
7.根据权利要求6所述的装置,其特征在于,所述展示单元在基基于更新后的文本库中包括的文本序列,生成所述预设场景对应的当前词云时,具体用于:
对更新后的文本库中包括的各个文本序列进行分词处理,得到所述文本库对应的多个词汇,并将所述文本库对应的每个词汇确定为目标词汇;
统计各个目标词汇的词频;
依据各个目标词汇和各个目标词汇的词频,按照预设的词云生成规则,生成所述预设场景对应的当前词云。
8.根据权利要求7所述的装置,其特征在于,所述展示单元在依据各个目标词汇和各个目标词汇的词频,按照预设的词云生成规则,生成所述预设场景对应的当前词云时,具体用于:
依据各个目标词汇的词频,确定每个目标词汇的展示字体、和所述展示字体的大小;
基于各个目标词汇、以及每个目标词汇的展示字体、和所述展示字体的大小,通过预设的展示格式,生成所述预设场景对应的当前词云。
9.一种存储介质,其特征在于,所述存储介质存储有指令集,其中,所述指令集被处理器执行时实现如权利要求1~5任意一项所述的词云展示方法。
10.一种电子设备,其特征在于,包括:
存储器,用于存储至少一组指令集;
处理器,用于执行所述存储器中存储的指令集,通过执行所述指令集实现如权利要求1~5任意一项所述的词云展示方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111026573.8A CN113722508A (zh) | 2021-09-02 | 2021-09-02 | 词云展示方法及装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111026573.8A CN113722508A (zh) | 2021-09-02 | 2021-09-02 | 词云展示方法及装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113722508A true CN113722508A (zh) | 2021-11-30 |
Family
ID=78680985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111026573.8A Pending CN113722508A (zh) | 2021-09-02 | 2021-09-02 | 词云展示方法及装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113722508A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120179465A1 (en) * | 2011-01-10 | 2012-07-12 | International Business Machines Corporation | Real time generation of audio content summaries |
KR101235694B1 (ko) * | 2012-08-14 | 2013-03-05 | 다이알로이드(주) | 음성인식 시스템 및 그 음성인식 방법 |
US20170270192A1 (en) * | 2016-03-18 | 2017-09-21 | International Business Machines Corporation | Generating word clouds |
CN107742315A (zh) * | 2017-10-10 | 2018-02-27 | 泰康保险集团股份有限公司 | 生成人物词云画像的方法及装置 |
CN109522392A (zh) * | 2018-10-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 基于语音的检索方法、服务器及计算机可读存储介质 |
CN111694946A (zh) * | 2020-05-27 | 2020-09-22 | 平安银行股份有限公司 | 文本关键词可视化显示方法、装置及计算机设备 |
CN111933129A (zh) * | 2020-09-11 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 音频处理方法、语言模型的训练方法、装置及计算机设备 |
CN112149409A (zh) * | 2020-09-23 | 2020-12-29 | 平安国际智慧城市科技股份有限公司 | 医疗词云生成方法、装置、计算机设备及存储介质 |
CN113037934A (zh) * | 2021-02-26 | 2021-06-25 | 西安金讯通软件技术有限公司 | 一种基于呼叫中心通话录音的热词分析系统 |
-
2021
- 2021-09-02 CN CN202111026573.8A patent/CN113722508A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120179465A1 (en) * | 2011-01-10 | 2012-07-12 | International Business Machines Corporation | Real time generation of audio content summaries |
KR101235694B1 (ko) * | 2012-08-14 | 2013-03-05 | 다이알로이드(주) | 음성인식 시스템 및 그 음성인식 방법 |
US20170270192A1 (en) * | 2016-03-18 | 2017-09-21 | International Business Machines Corporation | Generating word clouds |
CN107742315A (zh) * | 2017-10-10 | 2018-02-27 | 泰康保险集团股份有限公司 | 生成人物词云画像的方法及装置 |
CN109522392A (zh) * | 2018-10-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 基于语音的检索方法、服务器及计算机可读存储介质 |
CN111694946A (zh) * | 2020-05-27 | 2020-09-22 | 平安银行股份有限公司 | 文本关键词可视化显示方法、装置及计算机设备 |
CN111933129A (zh) * | 2020-09-11 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 音频处理方法、语言模型的训练方法、装置及计算机设备 |
CN112149409A (zh) * | 2020-09-23 | 2020-12-29 | 平安国际智慧城市科技股份有限公司 | 医疗词云生成方法、装置、计算机设备及存储介质 |
CN113037934A (zh) * | 2021-02-26 | 2021-06-25 | 西安金讯通软件技术有限公司 | 一种基于呼叫中心通话录音的热词分析系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107195296B (zh) | 一种语音识别方法、装置、终端及系统 | |
CN109741732B (zh) | 命名实体识别方法、命名实体识别装置、设备及介质 | |
CN109147796B (zh) | 语音识别方法、装置、计算机设备及计算机可读存储介质 | |
EP4018437B1 (en) | Optimizing a keyword spotting system | |
KR20130133858A (ko) | 청각 주의 큐를 사용하여 스피치 음절/모음/음의 경계 검출 | |
CN110246488B (zh) | 半优化CycleGAN模型的语音转换方法及装置 | |
CN110970036B (zh) | 声纹识别方法及装置、计算机存储介质、电子设备 | |
CN109036381A (zh) | 语音处理方法及装置、计算机装置及可读存储介质 | |
US11810471B2 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
CN102013253A (zh) | 基于语音单元语速的差异的语音识别方法及语音识别系统 | |
CN110675866B (zh) | 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
CN112349289A (zh) | 一种语音识别方法、装置、设备以及存储介质 | |
JP2015068897A (ja) | 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム | |
US20230298564A1 (en) | Speech synthesis method and apparatus, device, and storage medium | |
CN113823323A (zh) | 一种基于卷积神经网络的音频处理方法、装置及相关设备 | |
CN110718210B (zh) | 一种英文错误发音的识别方法、装置、介质和电子设备 | |
Priyadarshani et al. | Dynamic time warping based speech recognition for isolated Sinhala words | |
CN111798846A (zh) | 语音命令词识别方法、装置、会议终端及会议终端系统 | |
Sasmal et al. | Isolated words recognition of Adi, a low-resource indigenous language of Arunachal Pradesh | |
CN111785302A (zh) | 说话人分离方法、装置及电子设备 | |
CN113722508A (zh) | 词云展示方法及装置、存储介质及电子设备 | |
EP3718107B1 (en) | Speech signal processing and evaluation | |
Laleye et al. | Automatic boundary detection based on entropy measures for text-independent syllable segmentation | |
Laleye et al. | Automatic text-independent syllable segmentation using singularity exponents and rényi entropy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |