CN113506550B - 一种人工智能阅读显示器及显示方法 - Google Patents

一种人工智能阅读显示器及显示方法 Download PDF

Info

Publication number
CN113506550B
CN113506550B CN202110861788.5A CN202110861788A CN113506550B CN 113506550 B CN113506550 B CN 113506550B CN 202110861788 A CN202110861788 A CN 202110861788A CN 113506550 B CN113506550 B CN 113506550B
Authority
CN
China
Prior art keywords
information
sound
content
pinyin
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110861788.5A
Other languages
English (en)
Other versions
CN113506550A (zh
Inventor
连芷萱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hualande Technology Consulting Service Co ltd
Original Assignee
Beijing Hualande Technology Consulting Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hualande Technology Consulting Service Co ltd filed Critical Beijing Hualande Technology Consulting Service Co ltd
Priority to CN202110861788.5A priority Critical patent/CN113506550B/zh
Publication of CN113506550A publication Critical patent/CN113506550A/zh
Application granted granted Critical
Publication of CN113506550B publication Critical patent/CN113506550B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G3/00Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes
    • G09G3/20Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes for presentation of an assembly of a number of characters, e.g. a page, by composing the assembly by combination of individual elements arranged in a matrix no fixed position being assigned to or needed to be assigned to the individual characters or partial characters
    • G09G3/34Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes for presentation of an assembly of a number of characters, e.g. a page, by composing the assembly by combination of individual elements arranged in a matrix no fixed position being assigned to or needed to be assigned to the individual characters or partial characters by control of light from an independent source
    • G09G3/36Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes for presentation of an assembly of a number of characters, e.g. a page, by composing the assembly by combination of individual elements arranged in a matrix no fixed position being assigned to or needed to be assigned to the individual characters or partial characters by control of light from an independent source using liquid crystals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computer Hardware Design (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种人工智能阅读显示器及显示方法,属于人工智能技术领域。该显示器包括:显示模块,用于显示文稿;声电转换模块,用于将采集到的读稿者的声音转换为电信息;人工智能模块,用于将声电转换模块提供的电信息转换的声音信息识别成文字信息;检索模块,用于根据文字信息从文稿的文档数据中检索读稿者当前阅读的内容所在的文稿位置;控制模块,用于根据读稿者当前阅读的内容所在的文稿位置,控制显示模块在显示器的设定区域显示读稿者当前阅读和即将阅读的文稿内容。本发明能够使得读稿者在演讲过程中不需要手动翻页或滚屏且能够快速定位当前阅读的文稿内容和即将阅读的文稿内容。

Description

一种人工智能阅读显示器及显示方法
技术领域
本发明涉及人工智能技术领域,具体涉及一种人工智能阅读显示器及显示方法。
背景技术
迄今为止,会议、教授、播音等场景中,演讲者主要利用纸作为记录讲话内容的媒介。在演讲过程中,经常需要低头翻看纸件,会影响演讲者的演讲效果,给观众留下不好的印象,而且演讲者在抬头与观众进行视线交流之后,再次观看演讲稿时,会出现寻找后续演讲内容困难的问题。为克服该问题,有人将演讲内容记载在电子显示终端上,但是,将演讲内容记载在电子显示终端上,也需要手动翻页或滚屏,如此,演讲者翻看记录的内容还是很不方便,难以快速寻找到后续演讲内容的问题也依然存在。
发明内容
因此,本发明实施例要解决的技术问题在于克服现有技术中演讲者在演讲过程中需要手动翻稿以及难以迅速在演讲稿中定位当前演讲的内容的缺陷,从而提供一种人工智能阅读显示器及显示方法。
为此,本发明提供一种人工智能阅读显示器,包括:声电转换模块、人工智能模块、检索模块、控制模块和显示模块;
所述显示模块,用于显示文稿;
所述声电转换模块,用于将采集到的读稿者的声音转换为电信息;
所述人工智能模块,用于将所述声电转换模块提供的电信息转换的声音信息识别成文字信息;
所述检索模块,用于根据所述文字信息从所述文稿的文档数据中检索读稿者当前阅读的内容所在的文稿位置;
所述控制模块,用于根据读稿者当前阅读的内容所在的文稿位置,控制所述显示模块在显示器的设定区域显示读稿者当前阅读和即将阅读的文稿内容。
可选的,所述设定区域具有边框或所述设定区域显示的文稿内容具有醒目标识。
可选的,所述人工智能模块包括划分单元、特征提取单元和深度学习单元,所述划分单元用于识别所述声音信息中停顿点,并根据所述停顿点将所述声音信息划分为多个声音片段,所述特征提取单元用于提取所述声音片段的特征信息,所述深度学习单元用于识别提取的所述特征信息得到所述文字信息。
可选的,所述深度学习单元用于对所述声音片段中进行划分得到声音单元,识别所述声音单元的第一拼音,将识别到的所述第一拼音与预设识别库中的拼音列表进行匹配,根据所述拼音列表中与所述第一拼音匹配的第二拼音对应的候选字词集合确定所述声音单元对应的文字信息;
其中,所述第一拼音包括字的拼音、词的拼音或字和词的组合拼音;所述拼音列表包括字的拼音和词的拼音,且所述拼音列表中所包括的字和词的拼音为所述文稿中所有字和词的拼音,所述拼音列表中所有拼音对应的候选字词集合为所述文稿中所有字词集合。
可选的,所述人工智能模块还包括第一修正单元和/或第二修正单元,所述第一修正单元用于根据所述声音片段识别出的文字信息中第一文字相邻的一个或多个文字对所述第一文字进行修正,所述第二修正单元用于根据前一个或多个声音片段识别出的且经过修正的文字信息对所述文字信息进行修正。
可选的,所述检索模块包括匹配单元,所述匹配单元用于将所述文字信息与所述文稿中的第一文稿内容进行匹配,所述第一文稿内容为所述文稿中上一次匹配到的文稿内容之后的部分文稿内容。
可选的,所述匹配单元用于将所述第一文稿内容分割为多个待匹配内容,每个所述待匹配内容中的字符数比所述文字信息中的字符数多A个,相邻的所述待匹配内容之间重叠的字符数为B个,A和B均为正整数;
所述匹配单元还用于计算所述文字信息与每一所述待匹配内容之间的字符匹配度、语义匹配度和拼音匹配度,并对所述字符匹配度、所述语义匹配度和所述拼音匹配度进行加权求和得到总匹配度;
所述匹配单元,还用于将所述第一文稿内容中所述总匹配度最大且大于预设匹配度阈值的所述待匹配内容作为读稿者当前阅读的内容所在的文稿位置。
可选的,所述语义匹配度采用模糊神经网络模型分析得到,所述模糊神经网络模型包括并列的两个模糊神经网络以及根据两个所述模糊神经网络的输出值进行语义匹配度计算的匹配度计算网络,两个所述模糊神经网络的输入分别为所述文字信息的语义特征向量和所述待匹配内容的语义特征向量,每一所述模糊神经网络包括依次连接的输入层、模糊化层、模糊推理层和反模糊化层;
所述输入层用于将所述语义特征向量直接传输至所述模糊化层;
所述模糊化层,用于利用模糊度隶属函数计算所述输入层输出的语义特征向量所对应的模糊变量的隶属度;
所述模糊推理层,用于利用每个所述模糊变量的隶属度得到对应模糊规则的匹配程度;
所述反模糊化层,用于进行去模糊化处理。
本发明还提供一种人工智能阅读显示方法,包括以下步骤:
将读稿者阅读时采集到的声音信息识别成文字信息;
根据所述文字信息从文稿的文档数据中检索读稿者当前阅读的内容所在的文稿位置;
根据读稿者当前阅读的内容所在的文稿位置,控制显示器的设定区域显示读稿者当前阅读和即将阅读的文稿内容。
可选的,所述将读稿者阅读时采集到的声音信息识别成文字信息,包括:
识别所述声音信息中停顿点,并根据所述停顿点将所述声音信息划分为多个声音片段;
提取所述声音片段的特征信息;
识别提取的所述特征信息得到所述文字信息。
本发明实施例的技术方案,具有如下优点:
本发明提供的人工智能阅读显示器及显示方法中,文稿在显示器上的移动速度匹配于读稿者的讲话速度,从而读稿者在演讲过程中不需要手动翻页或滚屏,而且通过将读稿者当前阅读和即将阅读的文稿内容显示在设定区域内,使得演讲者在演讲过程中可以快速找到当前阅读的文稿内容和即将阅读的文稿内容,避免因长时间查找当前阅读的文稿内容和即将阅读的文稿内容导致演讲中断,保证演讲的流畅性,提升演讲效果。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1中人工智能阅读显示器的一个具体示例的结构框图;
图2为本发明实施例1中人工智能模块的一个具体示例的结构框图;
图3为本发明实施例2中人工智能阅读显示方法的一个具体示例的流程图;
图4为本发明实施例2中声音识别成文字的方法的一个具体示例的流程图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,本文所用的术语仅用于描述特定实施例的目的,而并非旨在限制本发明。除非上下文明确指出,否则如本文中所使用的单数形式“一”、“一个”和“该”等意图也包括复数形式。使用“包括”和/或“包含”等术语时,是意图说明存在该特征、整数、步骤、操作、元素和/或组件,而不排除一个或多个其他特征、整数、步骤、操作、元素、组件、和/或其他组合的存在或增加。术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通;可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本施例提供一种人工智能阅读显示器,如图1所示,包括:声电转换模块1、人工智能模块2、检索模块3、控制模块4和显示模块5;
所述显示模块5,用于显示文稿;该文稿为读稿者正在使用的文稿;
所述声电转换模块1,用于将采集到的读稿者的声音转换为电信息;
读稿者,一般为演讲者。
所述人工智能模块2,用于将所述声电转换模块1提供的电信息转换的声音信息识别成文字信息;
所述检索模块3,用于根据所述文字信息从所述文稿的文档数据中检索读稿者当前阅读的内容所在的文稿位置;
所述控制模块4,用于根据读稿者当前阅读的内容所在的文稿位置,控制所述显示模块5在显示器的设定区域显示读稿者当前阅读和即将阅读的文稿内容。
具体的,所述控制模块4根据读稿者当前阅读的内容所在的文稿位置生成当前阅读的文稿内容的图像和即将阅读的文稿内容的图像并控制显示器在设定区域显示生成的图像。
本实施例中,文稿在显示器上的移动速度匹配于读稿者的讲话速度,从而读稿者在演讲过程中不需要手动翻页或滚屏,而且通过将读稿者当前阅读和即将阅读的文稿内容显示在设定区域内,使得演讲者在演讲过程中可以快速找到当前阅读的文稿内容和即将阅读的文稿内容,避免因长时间查找当前阅读的文稿内容和即将阅读的文稿内容导致演讲中断,保证演讲的流畅性,提升演讲效果。
可选的,所述设定区域具有边框或所述设定区域显示的文稿内容具有醒目标识。
本实施例中,能够使得所述设定区域显示的读稿者当前阅读和即将阅读的文稿内容比所述显示器上其他区域显示的文稿内容醒目。
进一步可选的,所述醒目标识包括边框、下划线、文字加粗、改变的文字颜色中的一种或几种的组合。
所述醒目标识在显示器上的显示位置固定。
所述醒目标识与所述文稿内容分层显示。
本实施例中,所述人工智能模块2在将所述声电转换模块1提供的电信息转换的声音信息识别为文字信息之前,还对所述声音信息进行过滤处理,所述过滤处理用于将所述声音信息中不属于所述读稿者的部分去除掉。从而可以提高声音识别成文字的准确性,尤其可以避免阅读停顿时其他声音(例如在阅读过程中被其他人的说话或问话打断)的干扰。
可选的,在对所述声音信息进行过滤处理之前,可以根据所述声电转换模块1最初提供的一部分电信息转换的声音信息(可以称为第一声音信息)确定所述读稿者的声纹信息,然后在进行过滤处理时根据所述读稿者的声纹信息去除所述声音信息中不属于所述读稿者的部分声音信息。
在根据第一声音信息确定读稿者的声纹信息时,首先将所述第一声音信息均分为多段,并计算每一段的短时绝对值和,从中选取短时绝对值和均大于预设阈值且连续的多段声音信息作为第二声音信息,从中选取短时绝对值和并非均大于所述预设阈值但连续的多段声音信息作为第三声音信息,所述第三声音信息中短时绝对值和不大于所述预设阈值的段占比大于预设比例。所述第二声音信息和所述第三声音信息的时长均大于一定值,例如3秒,5秒。然后,根据所述第三声音信息确定包括过零率阈值和/或短时能量阈值的环境自适应参数。最后,利用所述环境自适应参数对所述第二声音信息进行有效语音端点检测得到有效的语音段(例如第二声音信息中连续多段的过零率大于所述过零率阈值且短时能量大于所述短时能量阈值时认为该连续的多段声音信息为有效的语音段,每一段的长度可根据平均语速确定,例如至少为在平均语速情况下读两个字所需的时间),并利用检测到的有效语音段提取所述读稿者的声纹信息。例如,可以提取所述有效语音段的梅尔倒谱系数声学特征向量、伽马通(Gammatone)频率倒谱系数声学特征向量和更高频的常数Q变换倒谱系数声学特征向量,并进行合成得到所述声纹信息。
可选的,如图2所示,所述人工智能模块2包括划分单元21、特征提取单元22和深度学习单元23,所述划分单元21用于识别所述声音信息中停顿点,并根据所述停顿点将所述声音信息划分为多个声音片段,所述特征提取单元22用于提取所述声音片段的特征信息,所述深度学习单元23用于识别提取的所述特征信息得到所述文字信息。
具体的,在识别所述声音信息中的停顿点时可以将所述声音信息划分成多个较小的分段,各分段之间可以存在重叠的部分,然后计算各分段的过零率和/或短时能量,并与上述的过零率阈值和/或短时能量阈值进行比较,若不大于对应的阈值,则认为是停顿点。
所述特提取单元22在提取所述声音片段的特征信息,所述深度学习单元23识别得到文字信息时,可以将所述声音片段进行分帧加窗处理得到声音帧(例如下述的声音单元),帧移可以为帧长的1/3~1/2,然后基于声音帧进行特征提取和文字识别。
具体的,所述特征提取单元提取的特征信息包括能量、基音频率、基频的周期、共振峰值、短时过零率、梅尔倒谱系数和/或线性预测倒谱系数。其中,梅尔倒谱系数的获取过程为:
对所述声音信息(具体可以是声音片段或声音帧)进行归一化处理,得到矩阵形式的数据;对矩阵形式的数据进行FFT变换,得到短时能量谱Xn(k),构建滤波器对所述短时能量谱Xn(k)进行滤波处理,得到系数m(i):
Figure BDA0003186025410000071
其中,i=1,2,…,p,p为滤波器个数,Hi(k)为第i个滤波器,
Figure BDA0003186025410000072
f(i)是第i个滤波器的中心频率,满足每个滤波器的起始频率与邻近滤波器的中心频率相同;
对滤波器的输出求对数能量,最后进行DCT变换,得到所述梅尔倒谱系数CMFCC(j):
Figure BDA0003186025410000073
基频的周期这一特征信息的提取过程为:
利用YIN算法对所述声音信息(具体可以是声音片段或声音帧)进行处理,得到其中的极小值点,判断是否存在小于预设阈值的极小值点,若存在,则获取所有小于所述预设阈值的极小值点,并将极小值的相对绝对差值小于预设误差的极小值点归入同一极小值点序列,获得多个极小值点序列,根据每个极小值点序列中极小值点的数据,求取该极小值点序列的权重,获取权重值最大的极小值点序列中最小的极小值点,将该最小极小值点与所述预设阈值的偏移量作为基谱的周期;若不存在,则将其中最小的极小值点与所述预设阈值的偏移量作为基谱的周期。
可选的,所述深度学习单元用于对所述声音片段中进行划分得到声音单元,识别所述声音单元的第一拼音,将识别到的所述第一拼音与预设识别库中的拼音列表进行匹配,根据所述拼音列表中与所述第一拼音匹配的第二拼音对应的候选字词集合确定所述声音单元对应的文字信息;
其中,所述第一拼音包括字的拼音、词的拼音或字和词的组合拼音;所述拼音列表包括字的拼音和词的拼音,且所述拼音列表中所包括的字和词的拼音为所述文稿中所有字和词的拼音,所述拼音列表中所有拼音对应的候选字词集合为所述文稿中所有字词集合。
所述第二拼音与所述第一拼音匹配是指所述第一拼音与所述第二拼音的匹配度大于预设匹配阈值,具体来说可以相同也可以近似。
所述预设识别库是预先根据所述文稿建立得到,在建立所述预设识别库时,可以将文稿中所有字的拼音提取出来并将所有词的拼音提取出来生成所述拼音列表,再统计文稿中每个拼音对应的字或词的出现的次数,按照出现的次数对每个拼音对应的字或词进行排序得到所述候选字词集。
具体的,所述深度学习单元在识别所述声音单元的第一拼音时,可以使用识别模型进行识别。所述识别模型包括双向递归神经网络和对抗神经网络,其中所述双向递归神经网络用于捕捉声音单元的上下文信息,所述对抗神经网络的建立过程为:建立生成模型和判别模型,对所述生成模型和所述判别模型的参数进行调整,获取拼音识别标签,根据参数调整后的生成模型和判别模型以及所述拼音识别标签,建立所述对抗神经网络模型。
可选的,所述人工智能模块2还包括第一修正单元和/或第二修正单元,所述第一修正单元用于根据所述声音片段识别出的文字信息中第一文字相邻的一个或多个文字对所述第一文字进行修正,所述第二修正单元用于根据前一个或多个声音片段识别出的且经过修正的文字信息对所述文字信息进行修正。
本实施例中,通过根据上下文进行对识别的文字进行修正,可以降低同音字、发音不标准、口误等对文字识别的影响,提高文字识别准确度。
另外,在对识别出的文字信息进行修正时可以仅限在所述候选字词集中选择作为替换的字或词,从而提高修正的正确概率。进一步可选的,可以优先在所述第二拼音对应的候选字词集中选择作为替换的字或词。
可选的,所述检索模块3包括匹配单元,所述匹配单元用于将所述文字信息与所述文稿中的第一文稿内容进行匹配,所述第一文稿内容为所述文稿中上一次匹配到的文稿内容之后的部分文稿内容。
本实施例中,在识别到读稿者当前的声音对应的文字信息后,将识别到的文字信息与上一次匹配到的文稿内容之后的部分文稿内容进行匹配,缩小了匹配范围,从而降低了匹配的计算量、减少匹配所用的时间,而且也可以进一步降低匹配的准确度。
可选的,所述匹配单元用于将所述第一文稿内容分割为多个待匹配内容,每个所述待匹配内容中的字符数比所述文字信息中的字符数多A个,相邻的所述待匹配内容之间重叠的字符数为B个,A和B均为正整数;
所述匹配单元还用于计算所述文字信息与每一所述待匹配内容之间的字符匹配度、语义匹配度和拼音匹配度,并对所述字符匹配度、所述语义匹配度和所述拼音匹配度进行加权求和得到总匹配度;
所述匹配单元,还用于将所述第一文稿内容中所述总匹配度最大且大于预设匹配度阈值的所述待匹配内容作为读稿者当前阅读的内容所在的文稿位置。
可选的,所述语义匹配度采用模糊神经网络模型分析得到,所述模糊神经网络模型包括并列的两个模糊神经网络以及根据两个所述模糊神经网络的输出值进行语义匹配度计算的匹配度计算网络,两个所述模糊神经网络的输入分别为所述文字信息的语义特征向量和所述待匹配内容的语义特征向量,每一所述模糊神经网络包括依次连接的输入层、模糊化层、模糊推理层和反模糊化层;
所述输入层用于将所述语义特征向量直接传输至所述模糊化层;
所述模糊化层,用于利用模糊度隶属函数计算所述输入层输出的语义特征向量所对应的模糊变量的隶属度;
所述模糊推理层,用于利用每个所述模糊变量的隶属度得到对应模糊规则的匹配程度;
所述反模糊化层,用于进行去模糊化处理。
具体的,将所述待匹配内容和所述文字信息分别转为词向量表示,采用Transformer的编码器对所述词向量进行编码提取出每个词的抽象特征,得到所述待匹配内容和所述文字信息的由词特征组成的语义特征向量。所述隶属度函数可以是三角型隶属度函数、类Z型隶属度函数、类S型隶属度函数、高斯隶属度函数等。所述模糊化层用于对输入层输出的语义特征向量进行模糊化处理,模糊化处理后的信息输入至所述模糊推理层后,根据模糊规则库中的规则,通过对隶属度的匹配判断,推导模糊规则库中的规则的适用度,选择适用的模糊规则。所述反模糊化层将模糊变量变换为精确量输出。
所述字符匹配度和所述拼音匹配度通过编辑距离确定,下面具体说明根据编辑距离确定所述拼音匹配度的方法,字符匹配度的计算方法类似,不再详述。
首先,初始化编辑距离矩阵L:
Figure BDA0003186025410000101
其中,M为所述待匹配内容的拼音个数(即字符的个数),N为所述文字信息的拼音个数(即字符的个数),0≤n≤N+1,0≤m≤M+1,n、m、N和M均为整数。
然后,按照以下公式对所述编辑距离矩阵的各元素进行赋值:
l0,0=0,lm,0=m,l0,n=n
Figure BDA0003186025410000102
其中,sim(m,n)为所述待匹配内容中的第m个字符的拼音和所述文字信息中的第n个字符的拼音组成的匹配对的相似度值。将lM+1,N+1的值确定为所述待匹配内容和所述文字信息的拼音之间的编辑距离。所述待匹配内容和所述文字信息的拼音之间的匹配度与所述编辑距离成反比。
在计算拼音组成的匹配对的相似度值sim(m,n)时,可以声母、韵母和音调,分别计算相似度,然后加权求和。
另外,所述显示器还可以包括用户输入模块,接收用户的输入,根据所述输入确定读稿者当前阅读的文稿内容或即将阅读的文稿内容,所述输入可以是在其他文稿内容的显示区域的划线输入或画圈输入,该其他文稿内容的显示区域是除所述当前阅读和即将阅读的文稿内容的显示区域以外的其他显示区域。或者,所述输入可以是用户将第二文稿内容调整至用于显示当前阅读的文稿内容的设定区域的输入,例如滚屏输入。本实施例中,若语音识别错误导致当前阅读的文稿内容识别错误,则用户可以手动进行调整,或者用户准备跳过文稿的一些内容时,可以手动调整当前阅读的文稿内容或即将阅读的文稿内容的显示,避免后续的自动识别错误,使得文稿的显示与阅读进度保持一致。
实施例2
本实施例提供一种人工智能阅读显示方法,如图3所示,包括以下步骤:
S1:将读稿者阅读时采集到的声音信息识别成文字信息;
S2:根据所述文字信息从文稿的文档数据中检索读稿者当前阅读的内容所在的文稿位置;
S3:根据读稿者当前阅读的内容所在的文稿位置,控制显示器的设定区域显示读稿者当前阅读和即将阅读的文稿内容。
本实施例中,文稿在显示器上的移动速度匹配于读稿者的讲话速度,从而读稿者在演讲过程中不需要手动翻页或滚屏,而且通过将读稿者当前阅读和即将阅读的文稿内容显示在设定区域内,使得演讲者在演讲过程中可以快速找到当前阅读的文稿内容和即将阅读的文稿内容,避免因长时间查找当前阅读的文稿内容和即将阅读的文稿内容导致演讲中断,保证演讲的流畅性,提升演讲效果。
可选的,请参阅图4,上述步骤S1,即所述将读稿者阅读时采集到的声音信息识别成文字信息,包括:
S11:识别所述声音信息中停顿点,并根据所述停顿点将所述声音信息划分为多个声音片段;
S12:提取所述声音片段的特征信息;
S13:识别提取的所述特征信息得到所述文字信息。
其他的相关技术请参阅上述实施例1,此处不再赘述。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种人工智能阅读显示器,其特征在于,包括:声电转换模块、人工智能模块、检索模块、控制模块和显示模块;
所述显示模块,用于显示文稿;
所述声电转换模块,用于将采集到的读稿者的声音转换为电信息;
所述人工智能模块,用于将所述声电转换模块最初提供的一部分电信息转换的第一声音信息均分为多段,并计算每一段的短时绝对值和,从中选取短时绝对值和均大于预设阈值且连续的多段声音信息作为第二声音信息,从中选取短时绝对值和并非均大于所述预设阈值但连续的多段声音信息作为第三声音信息,所述第三声音信息中短时绝对值和不大于所述预设阈值的段占比大于预设比例;根据所述第三声音信息确定包括过零率阈值和/或短时能量阈值的环境自适应参数;利用所述环境自适应参数对所述第二声音信息进行有效语音端点检测得到有效的语音段,并利用检测到的有效语音段提取所述读稿者的声纹信息;根据所述读稿者的声纹信息去除声音信息中不属于所述读稿者的部分声音信息;将去除了不属于所述读稿者的部分声音信息之后的所述声音信息识别成文字信息;其中,所述声音信息为所述声电转换模块提供的电信息转换的声音信息;
所述检索模块,用于根据所述文字信息从所述文稿的文档数据中检索读稿者当前阅读的内容所在的文稿位置;
所述控制模块,用于根据读稿者当前阅读的内容所在的文稿位置,控制所述显示模块在显示器的设定区域显示读稿者当前阅读和即将阅读的文稿内容。
2.根据权利要求1所述的显示器,其特征在于,所述设定区域具有边框或所述设定区域显示的文稿内容具有醒目标识。
3.根据权利要求1所述的显示器,其特征在于,所述人工智能模块包括划分单元、特征提取单元和深度学习单元,所述划分单元用于识别所述声音信息中停顿点,并根据所述停顿点将所述声音信息划分为多个声音片段,所述特征提取单元用于提取所述声音片段的特征信息,所述深度学习单元用于识别提取的所述特征信息得到所述文字信息。
4.根据权利要求3所述的显示器,其特征在于,所述深度学习单元用于对所述声音片段中进行划分得到声音单元,识别所述声音单元的第一拼音,将识别到的所述第一拼音与预设识别库中的拼音列表进行匹配,根据所述拼音列表中与所述第一拼音匹配的第二拼音对应的候选字词集合确定所述声音单元对应的文字信息;
其中,所述第一拼音包括字的拼音、词的拼音或字和词的组合拼音;所述拼音列表包括字的拼音和词的拼音,且所述拼音列表中所包括的字和词的拼音为所述文稿中所有字和词的拼音,所述拼音列表中所有拼音对应的候选字词集合为所述文稿中所有字词集合。
5.根据权利要求3所述的显示器,其特征在于,所述人工智能模块还包括第一修正单元和/或第二修正单元,所述第一修正单元用于根据所述声音片段识别出的文字信息中第一文字相邻的一个或多个文字对所述第一文字进行修正,所述第二修正单元用于根据前一个或多个声音片段识别出的且经过修正的文字信息对所述文字信息进行修正。
6.根据权利要求1所述的显示器,其特征在于,所述检索模块包括匹配单元,所述匹配单元用于将所述文字信息与所述文稿中的第一文稿内容进行匹配,所述第一文稿内容为所述文稿中上一次匹配到的文稿内容之后的部分文稿内容。
7.根据权利要求6所述的显示器,其特征在于,所述匹配单元用于将所述第一文稿内容分割为多个待匹配内容,每个所述待匹配内容中的字符数比所述文字信息中的字符数多A个,相邻的所述待匹配内容之间重叠的字符数为B个,A和B均为正整数;
所述匹配单元还用于计算所述文字信息与每一所述待匹配内容之间的字符匹配度、语义匹配度和拼音匹配度,并对所述字符匹配度、所述语义匹配度和所述拼音匹配度进行加权求和得到总匹配度;
所述匹配单元还用于将所述第一文稿内容中所述总匹配度最大且大于预设匹配度阈值的所述待匹配内容作为读稿者当前阅读的内容所在的文稿位置。
8.根据权利要求7所述的显示器,其特征在于,所述语义匹配度采用模糊神经网络模型分析得到,所述模糊神经网络模型包括并列的两个模糊神经网络以及根据两个所述模糊神经网络的输出值进行语义匹配度计算的匹配度计算网络,两个所述模糊神经网络的输入分别为所述文字信息的语义特征向量和所述待匹配内容的语义特征向量,每一所述模糊神经网络包括依次连接的输入层、模糊化层、模糊推理层和反模糊化层;
所述输入层用于将所述语义特征向量直接传输至所述模糊化层;
所述模糊化层,用于利用模糊度隶属函数计算所述输入层输出的语义特征向量所对应的模糊变量的隶属度;
所述模糊推理层,用于利用每个所述模糊变量的隶属度得到对应模糊规则的匹配程度;
所述反模糊化层,用于进行去模糊化处理。
9.一种人工智能阅读显示方法,其特征在于,包括以下步骤:
将声电转换模块最初提供的一部分电信息转换的第一声音信息均分为多段,并计算每一段的短时绝对值和,从中选取短时绝对值和均大于预设阈值且连续的多段声音信息作为第二声音信息,从中选取短时绝对值和并非均大于所述预设阈值但连续的多段声音信息作为第三声音信息,所述第三声音信息中短时绝对值和不大于所述预设阈值的段占比大于预设比例;根据所述第三声音信息确定包括过零率阈值和/或短时能量阈值的环境自适应参数;利用所述环境自适应参数对所述第二声音信息进行有效语音端点检测得到有效的语音段,并利用检测到的有效语音段提取读稿者的声纹信息;
根据所述读稿者的声纹信息去除声音信息中不属于所述读稿者的部分声音信息;将去除了不属于所述读稿者的部分声音信息之后的所述声音信息识别成文字信息;其中,所述声音信息为所述声电转换模块在所述第一声音信息对应的电信系之后提供的电信息转换的声音信息;
根据所述文字信息从文稿的文档数据中检索读稿者当前阅读的内容所在的文稿位置;
根据读稿者当前阅读的内容所在的文稿位置,控制显示器的设定区域显示读稿者当前阅读和即将阅读的文稿内容。
10.根据权利要求9所述的方法,其特征在于,所述将去除了不属于所述读稿者的部分声音信息之后的所述声音信息识别成文字信息,包括:
识别所述声音信息中停顿点,并根据所述停顿点将所述声音信息划分为多个声音片段;
提取所述声音片段的特征信息;
识别提取的所述特征信息得到所述文字信息。
CN202110861788.5A 2021-07-29 2021-07-29 一种人工智能阅读显示器及显示方法 Active CN113506550B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110861788.5A CN113506550B (zh) 2021-07-29 2021-07-29 一种人工智能阅读显示器及显示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110861788.5A CN113506550B (zh) 2021-07-29 2021-07-29 一种人工智能阅读显示器及显示方法

Publications (2)

Publication Number Publication Date
CN113506550A CN113506550A (zh) 2021-10-15
CN113506550B true CN113506550B (zh) 2022-07-05

Family

ID=78015123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110861788.5A Active CN113506550B (zh) 2021-07-29 2021-07-29 一种人工智能阅读显示器及显示方法

Country Status (1)

Country Link
CN (1) CN113506550B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102568475A (zh) * 2011-12-31 2012-07-11 安徽科大讯飞信息科技股份有限公司 用于普通话水平测评的系统和方法
CN103164403A (zh) * 2011-12-08 2013-06-19 深圳市北科瑞声科技有限公司 视频索引数据的生成方法和系统
CN104200804A (zh) * 2014-09-19 2014-12-10 合肥工业大学 一种面向人机交互的多类信息耦合的情感识别方法
CN104853236A (zh) * 2015-01-15 2015-08-19 青岛海尔软件有限公司 一种智能电视的开关机控制方法及其装置
CN111028845A (zh) * 2019-12-06 2020-04-17 广州国音智能科技有限公司 多音频识别方法、装置、设备及可读存储介质
CN112489688A (zh) * 2020-11-09 2021-03-12 浪潮通用软件有限公司 一种基于神经网络的情感识别方法、设备及介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382937B (zh) * 2008-07-01 2011-03-30 深圳先进技术研究院 基于语音识别的多媒体资源处理方法及其在线教学系统
CN101505397B (zh) * 2009-02-20 2012-03-21 华为终端有限公司 一种语音和视频字幕同步呈现的方法及系统
JP2014010816A (ja) * 2012-07-03 2014-01-20 Sharp Corp 情報処理装置
TWM469557U (zh) * 2013-05-30 2014-01-01 Univ Chien Hsin Sci & Tech 智慧型翻轉的讀稿機
CN104796584A (zh) * 2015-04-23 2015-07-22 南京信息工程大学 具有语音识别功能的提词装置
CN106161811A (zh) * 2016-06-24 2016-11-23 维沃移动通信有限公司 一种提示方法及移动终端
CN106548777B (zh) * 2016-11-25 2020-11-10 北京光年无限科技有限公司 一种用于智能机器人的数据处理方法及装置
CN110168572A (zh) * 2017-01-13 2019-08-23 凯迪迪爱通信技术有限公司 信息处理方法、信息处理装置、计算机可读存储介质
CN108920128B (zh) * 2018-07-12 2021-10-08 思必驰科技股份有限公司 演示文稿的操作方法及系统
CN109582775B (zh) * 2018-12-04 2024-03-26 平安科技(深圳)有限公司 信息录入方法、装置、计算机设备及存储介质
CN112114771A (zh) * 2019-06-20 2020-12-22 珠海金山办公软件有限公司 一种演示文稿播放控制方法和装置
CN112653798A (zh) * 2020-12-22 2021-04-13 平安普惠企业管理有限公司 智能客服语音应答方法、装置、计算机设备及存储介质
CN113113051A (zh) * 2021-03-10 2021-07-13 深圳市声扬科技有限公司 音频指纹提取方法、装置、计算机设备和存储介质
CN112925945A (zh) * 2021-04-12 2021-06-08 平安科技(深圳)有限公司 会议纪要生成方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164403A (zh) * 2011-12-08 2013-06-19 深圳市北科瑞声科技有限公司 视频索引数据的生成方法和系统
CN102568475A (zh) * 2011-12-31 2012-07-11 安徽科大讯飞信息科技股份有限公司 用于普通话水平测评的系统和方法
CN104200804A (zh) * 2014-09-19 2014-12-10 合肥工业大学 一种面向人机交互的多类信息耦合的情感识别方法
CN104853236A (zh) * 2015-01-15 2015-08-19 青岛海尔软件有限公司 一种智能电视的开关机控制方法及其装置
CN111028845A (zh) * 2019-12-06 2020-04-17 广州国音智能科技有限公司 多音频识别方法、装置、设备及可读存储介质
CN112489688A (zh) * 2020-11-09 2021-03-12 浪潮通用软件有限公司 一种基于神经网络的情感识别方法、设备及介质

Also Published As

Publication number Publication date
CN113506550A (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN108564942B (zh) 一种基于敏感度可调的语音情感识别方法及系统
CN107305541B (zh) 语音识别文本分段方法及装置
CN110033756B (zh) 语种识别方法、装置、电子设备及存储介质
CN111145786A (zh) 语音情感识别方法和装置、服务器、计算机可读存储介质
DE2918533A1 (de) Spracherkennungssystem
US20110066434A1 (en) Method for Speech Recognition on All Languages and for Inputing words using Speech Recognition
US20080004879A1 (en) Method for assessing learner's pronunciation through voice and image
CN110648667B (zh) 多人场景人声匹配方法
CN111326178A (zh) 基于卷积神经网络的多模态语音情感识别系统及方法
CN113113022A (zh) 一种基于说话人声纹信息的自动识别身份的方法
CN111091840A (zh) 一种建立性别识别模型的方法及性别识别方法
JPH0465392B2 (zh)
CN113506550B (zh) 一种人工智能阅读显示器及显示方法
CN115104151A (zh) 一种离线语音识别方法和装置、电子设备和可读存储介质
CN113516987B (zh) 一种说话人识别方法、装置、存储介质及设备
CN116386670A (zh) 音口同步识别方法、音口同步识别网络的训练方法及装置
CN110299133A (zh) 基于关键字判定非法广播的方法
CN115565533A (zh) 语音识别方法、装置、设备及存储介质
KR19980076309A (ko) 음성인식 방법 및 그 장치
WO2022044100A1 (ja) 学習装置、検索装置、学習方法、及びプログラム
US7454337B1 (en) Method of modeling single data class from multi-class data
CN113490027A (zh) 一种短视频制作生成处理方法、设备及计算机存储介质
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
JP3474949B2 (ja) 音声認識装置
Rao Audio-visual interaction in multimedia

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Zhang Zhi

Inventor after: Lian Zhixuan

Inventor before: Lian Zhixuan

CB03 Change of inventor or designer information