CN117666981B - Tts语音播报方法、装置以及打印机 - Google Patents
Tts语音播报方法、装置以及打印机 Download PDFInfo
- Publication number
- CN117666981B CN117666981B CN202410117168.4A CN202410117168A CN117666981B CN 117666981 B CN117666981 B CN 117666981B CN 202410117168 A CN202410117168 A CN 202410117168A CN 117666981 B CN117666981 B CN 117666981B
- Authority
- CN
- China
- Prior art keywords
- text
- content
- determining
- anomaly
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000002159 abnormal effect Effects 0.000 claims abstract description 139
- 238000012937 correction Methods 0.000 claims abstract description 59
- 238000001514 detection method Methods 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 97
- 238000007639 printing Methods 0.000 claims description 87
- 230000005856 abnormality Effects 0.000 claims description 51
- 238000009826 distribution Methods 0.000 claims description 32
- 238000013528 artificial neural network Methods 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 19
- 238000013145 classification model Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 230000006872 improvement Effects 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种TTS语音播报方法、装置以及打印机,属于打印机技术领域。该方法包括:利用文本纠错模型对文本内容进行识别,获得异常位置的位置宽度和中心位置;根据位置宽度和中心位置确定文本异常信息;从文本内容中获得图表内容的关联文本并根据关联文本确定图表内容的目标位置;根据目标位置和图表内容确定关联文本的关联内容;根据关联文本对关联内容进行虚假检测,获得关联文本和关联内容之间的差异性并根据差异性确定图表异常信息;根据文本异常信息确定文本异常描述以及根据图表异常信息确定图表异常描述;将文本异常描述转换成第一语音数据,以及将图表异常描述转换成第二语音数据,并将第一语音数据和第二语音数据进行语音播报。
Description
技术领域
本发明涉及打印机技术领域,尤其涉及一种TTS语音播报方法、装置以及打印机。
背景技术
打印机在日常生活中已经是应用广泛的办公设备。随着打印技术的发展,打印机在技术与功能上取得了很大的进步,同时受到数字化趋势的影响,打印机也朝着更高效更智能的方向发展。
在相关技术中,当打印机出现故障,如缺墨等问题时,可以通过语音播报的方式及时反馈至用户,使用户能够及时得知打印机的工作状态和可能出现的问题。这能够帮助用户更好地了解打印机的运行情况,进而及时做出相应的处理。但是,相关技术中在用户使用打印机进行文件打印时,无法对打印内容进行检查,从而无法通过语音播报的方式提醒用户打印内容可能存在异常,进而使得用户在将打印结果发送给用户的客户或合作伙伴时,打印结果中的打印错误会给用户的客户或者合作伙伴留下不专业的印象,影响了用户的专业性。
发明内容
本发明实施例的主要目的在于提供一种TTS语音播报方法、装置以及打印机,旨在解决相关技术中在用户使用打印机进行文件打印时,无法对打印内容进行检查,从而无法通过语音播报的方式提醒用户打印内容可能存在异常,进而使得用户在将打印结果发送给用户的客户或合作伙伴时,打印结果中的打印错误会给用户的客户或者合作伙伴留下不专业的印象,影响了用户的专业性的问题。
第一方面,本发明实施例提供一种TTS语音播报方法,包括:
获得打印请求,并根据所述打印请求获得对应的打印内容;
对所述打印内容进行内容分类,获得所述打印内容对应的文本内容和图表内容;
利用文本纠错模型对所述文本内容进行识别,获得所述文本内容对应的异常位置的位置宽度和所述异常位置的中心位置;
根据所述位置宽度和所述中心位置确定所述文本内容对应的文本异常信息;
从所述文本内容中获得所述图表内容对应的关联文本,并根据所述关联文本确定所述图表内容对应的目标位置;
根据所述目标位置和所述图表内容确定所述关联文本对应的关联内容;
根据所述关联文本对所述关联内容进行虚假检测,获得所述关联文本和所述关联内容之间的差异性,并根据所述差异性确定所述图表内容对应的图表异常信息;
根据所述文本异常信息确定所述打印内容对应的文本异常描述,以及根据所述图表异常信息确定所述打印内容对应的图表异常描述;
将所述文本异常描述利用TTS转换成第一语音数据,以及将所述图表异常描述利用TTS转换成第二语音数据,并将所述第一语音数据和所述第二语音数据进行语音播报。
第二方面,本发明实施例提供一种TTS语音播报装置,包括:
请求获取模块,用于获得打印请求,并根据所述打印请求获得对应的打印内容;
数据分类模块,用于对所述打印内容进行内容分类,获得所述打印内容对应的文本内容和图表内容;
数据识别模块,用于利用文本纠错模型对所述文本内容进行识别,获得所述文本内容对应的异常位置的位置宽度和所述异常位置的中心位置;
异常确定模块,用于根据所述位置宽度和所述中心位置确定所述文本内容对应的文本异常信息;
位置确定模块,用于从所述文本内容中获得所述图表内容对应的关联文本,并根据所述关联文本确定所述图表内容对应的目标位置;
关联确定模块,用于根据所述目标位置和所述图表内容确定所述关联文本对应的关联内容;
异常获得模块,用于根据所述关联文本对所述关联内容进行虚假检测,获得所述关联文本和所述关联内容之间的差异性,并根据所述差异性确定所述图表内容对应的图表异常信息;
异常描述模块,用于根据所述文本异常信息确定所述打印内容对应的文本异常描述,以及根据所述图表异常信息确定所述打印内容对应的图表异常描述;
语音播报模块,用于将所述文本异常描述利用TTS转换成第一语音数据,以及将所述图表异常描述利用TTS转换成第二语音数据,并将所述第一语音数据和所述第二语音数据进行语音播报。
第三方面,本发明实施例还提供一种打印机,所述打印机包括处理器、存储器、存储在所述存储器上并可被所述处理器执行的计算机程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,其中所述计算机程序被所述处理器执行时,实现如本发明说明书提供的任一项TTS语音播报方法的步骤。
本发明实施例提供一种TTS语音播报方法、装置以及打印机,该方法包括:获得打印请求,并根据打印请求获得对应的打印内容;对打印内容进行内容分类,获得打印内容对应的文本内容和图表内容;利用文本纠错模型对文本内容进行识别,获得文本内容对应的异常位置的位置宽度和异常位置的中心位置;根据位置宽度和中心位置确定文本内容对应的文本异常信息;从文本内容中获得图表内容对应的关联文本,并根据关联文本确定图表内容对应的目标位置;根据目标位置和图表内容确定关联文本对应的关联内容;根据关联文本对关联内容进行虚假检测,获得关联文本和关联内容之间的差异性,并根据差异性确定图表内容对应的图表异常信息;根据文本异常信息确定打印内容对应的文本异常描述,以及根据图表异常信息确定打印内容对应的图表异常描述;将文本异常描述利用TTS转换成第一语音数据,以及将图表异常描述利用TTS转换成第二语音数据,并将第一语音数据和第二语音数据进行语音播报。本申请中通过文本纠错模型和虚假检测,可以识别文本和图表内容中的异常情况或虚假信息。这有助于提前发现和解决问题,减少错误和误导。通过自动化识别打印内容对应的异常情况,并将异常信息转换为语音数据进行语音播报,可以实现及时的异常通知和处理,提高工作效率,进而解决了相关技术中在用户使用打印机进行文件打印时,无法对打印内容进行检查,从而无法通过语音播报的方式提醒用户打印内容可能存在异常,进而使得用户在将打印结果发送给用户的客户或合作伙伴时,打印结果中的打印错误会给用户的客户或者合作伙伴留下不专业的印象,影响了用户的专业性的问题。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种TTS语音播报方法的流程示意图;
图2为本发明实施例提供的一种TTS语音播报装置的模块结构示意图;
图3为本发明实施例提供的一种打印机的结构示意框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
本发明实施例提供一种TTS语音播报方法、装置以及打印机。其中,该TTS语音播报方法可应用于打印机中,该打印机可以为热敏打印机、票据打印机、条码打印机等等。
下面结合附图,对本发明的一些实施例作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本发明实施例提供的一种TTS语音播报方法的流程示意图。
如图1所示,该TTS语音播报方法包括步骤S101至步骤S109。
步骤S101、获得打印请求,并根据所述打印请求获得对应的打印内容。
示例性地,用户在需要打印文件或者有其他打印需求时,向打印机发送打印请求,进而打印机获得打印请求,并对打印请求进行解析获得待打印文件对应的存储路径,进而打印机从存储路径中获得待打印文件,从而对待打印文件进行内容解析获得待打印文件对应的打印内容。
例如,用户在手机上触发打印请求,但是待打印文件存储在服务器上,则打印机在接收到打印请求后,对打印请求进行解析获得待打印文件对应的存储位置,进而根据打印机根据该存储位置获得该打印请求对应的待打印文件,从而对待打印文件利用python-doc库进行内容解析,获得该待打印文件对应的打印内容。打印内容至少包括文本信息、图像信息和表格信息。
步骤S102、对所述打印内容进行内容分类,获得所述打印内容对应的文本内容和图表内容。
示例性地,根据打印内容的数据格式对打印内容进行内容分类,从而获得打印内容对应的文本内容和图表内容。
例如,文本内容的数据格式为text,图表内容为数据格式为img或table,进而在利用python-doc库读取打印内容后,则当读取打印内容对应的数据格式为text时,则将该打印内容确定为文本内容;当读取打印内容对应的数据格式为img或table时,则将该打印内容确定为图表内容。
步骤S103、利用文本纠错模型对所述文本内容进行识别,获得所述文本内容对应的异常位置的位置宽度和所述异常位置的中心位置。
示例性地,收集一组有标注的文本数据,包括正确的文本以及带有异常位置标记的文本。异常位置标记可以使用位置宽度和中心位置的方式表示。使用收集的标注数据训练一个文本纠错模型,如基于深度学习的模型,常见的包括Seq2Seq模型、BERT模型等。模型应具备对文本进行序列建模、异常识别和定位的能力。
示例性地,在获得文本纠错模型后,利用文本纠错模型对文本内容进行识别,从而获得文本内容对应的异常位置的位置宽度和异常位置的中心位置。
在一些实施方式中,获得所述文本纠错模型,包括:获得训练数据,所述训练数据包括文本数据和所述文本数据对应的异常位置和异常宽度;确定所述文本纠错模型对应的初始模型参数,并利用所述初始模型参数下的所述文本纠错模型的词向量层对所述文本数据进行向量表示,获得所述文本数据对应的第一文本向量;利用所述初始模型参数下的所述文本纠错模型的高斯偏置层对所述第一文本向量的注意力位置进行调整,获得第二文本向量;利用所述初始模型参数下的所述文本纠错模型的位置确定层对所述第二文本向量进行位置预测,获得所述文本数据对应的异常预测位置和异常预测宽度;计算所述异常位置和所述异常预测位置之间的第一误差和所述异常宽度和所述异常预测宽度之间的第二误差;根据所述第一误差和所述第二误差更新所述初始模型参数,并根据更新后的所述初始模型参数重新计算所述第一误差和所述第二误差,当所述第一误差和所述第二误差满足预设条件时,则确定所述文本纠错模型。
示例性地,文本纠错模型包括词向量层、注意力层、高斯偏置层以及位置确定层。收集一组有标注的文本数据,包括正确的文本以及带有异常位置和异常宽度标记的文本数据,进而获得文本纠错模型对应的训练数据。
示例性地,确定文本纠错模型的初始模型参数,可以采用随机初始化或者其他方法。将文本数据输入文本纠错模型中,利用初始模型参数下的文本纠错模型中的词向量层对文本数据进行向量表示,以获得文本数据对应的第一文本向量。
示例性地,利用初始模型参数下的文本纠错模型的注意力层对第一文本向量进行初次注意力调整,进而获得更新后的第一文本向量,再利用文本纠错模型的高斯偏置层对更新后的第一文本向量进行注意力位置的调整,以得到第二文本向量,其中,高斯偏置层对更新后的第一文本向量进行注意力位置的调整的目的是将模型的注意力关注在文本数据中文本异常的位置,从而获得文本数据对应的第二文本向量,进而利用位置确定层对第二文本向量进行异常位置和异常宽度的预测,获得异常预测位置和异常预测宽度,从而计算文本数据对应的异常位置和异常预测位置之间的第一误差和文本数据对应的异常宽度和异常预测宽度之间的第二误差。根据第一误差和第二误差更新初始模型参数,并重新计算误差。循环执行更新和计算直到满足预设条件,即误差达到最小值或者训练次数达到设定值。
在一些实施方式中,所述利用所述初始模型参数下的所述文本纠错模型的高斯偏置层对所述第一文本向量的注意力位置进行调整,获得第二文本向量,包括:根据所述高斯偏置层确定所述文本数据对应的初始预测位置和初始预测宽度,并根据所述初始预测位置和所述初始预测宽度确定所述第一文本向量对应的偏离程度;将所述偏离程度和所述第一文本向量进行加和,获得所述第二文本向量;其中,根据下列公式获得所述偏离程度:
Gi表示所述文本数据中第i个文本对应的偏离程度,i表示当前文本位置,Pi表示所述初始预测位置,σi表示标准差,其中,Di表示所述初始预测宽度。
示例性地,通过高斯偏置层对第一文本向量中的注意力位置进行调整,得到一个偏移量。这个偏移量可以通过高斯函数来计算,其中高斯函数的均值代表预测的初始位置,标准差代表预测的初始宽度。将第一文本向量与初始预测位置进行对比,根据下列公式计算第一文本向量对应的偏离程度:
其中,Gi表示文本数据中第i个文本对应的偏离程度,i表示当前文本位置,Pi表示初始预测位置,σi表示标准差,其中,Di表示初始预测宽度。
示例性地,将第一文本向量的偏离程度与第一文本向量进行加和,得到第二文本向量。这个加和的过程可以简单地使用向量相加,或者应用其他更复杂的加权和融合方法。
示例性地,初始预测位置和初始预测宽度的设定应该根据具体的任务和训练数据进行调整和优化。可以通过实验和调参,选择适合的正态分布参数来得到较好的预测效果。同时,对于第一文本向量的偏离程度计算,根据具体的需求和任务,可以选择合适的距离度量方法,以最大程度地捕捉向量之间的差异和偏移程度。
具体地,本申请中的文本纠错模型利用高斯偏置层对文本数据对应的第一文本向量重新进行注意力权重分布,进而改变文本数据对应的注意力分布的走势,从而识别出文本数据对应的异常位置和异常宽度,有效获得文本数据对应的异常数据。
在一些实施方式中,获得所述偏离程度,还包括:确定额外偏置,并根据所述额外偏置对所述偏离程度进行改进,获得改进后的所述偏离程度;其中,根据下列公式获得改进后的所述偏离程度:
Gi’表示所述文本数据中第i个文本对应的改进后的偏离程度,i表示当前文本位置,Pi表示所述初始预测位置,σi表示标准差,其中,Di表示所述初始预测宽度,a表示常量系数,b表示所述额外偏置。
示例性地,在计算第一文本向量对应的偏离程度时,由于当前位置存在出错的可能,因此需要减少对当前位置语义信息的关注,而进一步增加对局部上下文信息的关注。因此对上述偏离程度的计算方式再次改进,在偏离程度的计算公式中,再额外添加额外偏置b并取绝对值,偏离程度的改进为如下所示的计算公式:
其中,G′i表示文本数据中第i个文本对应的改进后的偏离程度,i表示当前文本位置,Pi表示初始预测位置,σi表示标准差,其中,Di表示初始预测宽度,a表示常量系数,b表示额外偏置。
示例性地,经过二次局部语义增强的文本纠错模型可以进一步减少对当前位置语义信息的关注,并加强周边局部范围信息的关注,促使模型更加高效地学习文本出错规律,进而提高文本异常检测准确性。
在一些实施方式中,所述第一文本向量至少包括query向量,所述根据所述高斯偏置层确定所述文本数据对应的初始预测位置和初始预测宽度,包括:利用所述高斯偏置层中的第一前向神经网络将所述query向量映射为位置隐藏矩阵;通过所述高斯偏置层中的第一线性神经网络将所述位置隐藏矩阵映射为位置标量;利用所述高斯偏置层中的第二前向神经网络将所述query向量映射为窗口隐藏矩阵;通过所述高斯偏置层中的第二线性神经网络将所述窗口隐藏矩阵映射为窗口标量;根据所述位置标量和所述窗口标量确定所述文本数据对应的所述初始预测位置和所述初始预测宽度;其中,根据下列公式获得所述初始预测位置和所述初始预测宽度:
Pi表示所述初始预测位置,Di表示所述初始预测宽度,I表示放缩系数,用于将Pi和Di放缩至所述文本数据对应的文本长度范围内,li表示所述位置标量,zi表示所述窗口标量。
示例性地,高斯偏置层中还包含两个前向神经网络,分别用于处理位置信息和窗口信息。通过第一前向神经网络将query向量映射为位置隐藏矩阵,通过第二前向神经网络将query向量映射为窗口隐藏矩阵。
示例性地,高斯偏置层中还包含两个线性神经网络,用于将位置隐藏矩阵和窗口隐藏矩阵映射为标量。利用第一线性神经网络将位置隐藏矩阵映射为位置标量,利用第二线性神经网络将窗口隐藏矩阵映射为窗口标量。
示例性地,根据下列公式计算得到位置标量:
其中,li表示位置标量,表示第一线性神经网络对应地第一线性投影矩阵Up的转置,wp表示第一前向神经网络,Qi表示query向量。
示例性地,根据下列公式计算得到窗口标量:
其中,zi表示窗口标量,表示第二线性神经网络对应地第二线性投影矩阵Ud的转置,Wd表示第二前向神经网络,Qi表示query向量。
示例性地,在获得位置标量和窗口标量之后,根据下列公式获得初始预测位置和初始预测宽度:
Pi表示初始预测位置,Di表示初始预测宽度,I表示放缩系数,用于将Pi和Di放缩至文本数据对应的文本长度范围内,li表示位置标量,zi表示窗口标量。
步骤S104、根据所述位置宽度和所述中心位置确定所述文本内容对应的文本异常信息。
示例性地,根据识别文本内容对应的位置宽度和中心位置后,通过将中心位置减去宽度的一半,得到异常位置的起始位置;将中心位置加上宽度的一半,得到异常位置的结束位置。根据异常位置的起始位置和结束位置获得文本内容中对应的文本异常信息。
示例性地,在获得文本异常信息时,还可以根据文本异常信息的类型和边界模糊程度等因素,采用不同的判别方法,如使用阈值进行二值化,使用模型进行分类等,来进一步提取和判断文本异常信息。
在一些实施方式中,所述根据所述位置宽度和所述中心位置确定所述文本内容对应的文本异常信息,包括:根据所述位置宽度和所述中心位置从所述文本内容中获得对应的异常文本以及包含所述异常文本对应的异常语句;根据所述异常语句对所述异常文本进行推理,获得所述异常文本对应的正确文本;根据所述异常文本和所述正确文本确定所述文本内容对应的所述文本异常信息。
示例性地,根据识别出的位置宽度和中心位置确定文本内容中的异常位置,进而根据异常位置,在文本内容中提取出异常文本。可以使用字符串索引或者子串提取的方法,将文本内容中的异常位置对应的子串提取出来。通过使用语句分割或解析技术,将异常文本在文本内容中所在的句子提取出来,得到异常语句。
示例性地,通过使用自然语言处理中的文本推理技术,对异常语句进行处理,得到异常文本对应的正确文本。常见的文本推理技术包括基于规则的推理、基于机器学习的推理、基于知识图谱的推理等。
示例性地,通过对比得到的异常文本和正确文本,可以确定文本内容对应的异常信息。例如,可以将异常文本作为文本内容中的错误描述,正确文本作为文本内容中的正确描述,从而确定文本的异常程度、异常类型以及异常位置等信息。
步骤S105、从所述文本内容中获得所述图表内容对应的关联文本,并根据所述关联文本确定所述图表内容对应的目标位置。
示例性地,通过事先定义的规则、关键词匹配、句法分析或机器学习等方法来提取图表内容相关的信息从而确定文本内容中包含图表内容的关键词或特征。进而根据确定的图表内容关键词或特征,从文本内容中提取与图表内容相关的关联文本。
示例性地,使用命名实体识别、语义角色标注、主题建模等技术进行进一步的对提取的关联文本进行文本分析和理解,以提取出与图表内容相关的目标位置。
步骤S106、根据所述目标位置和所述图表内容确定所述关联文本对应的关联内容。
示例性地,在获得图表内容对应地目标位置后,将图表内容中对应地目标位置中进行标注,从而将标注结果从图表内容中抽取出来,进而获得目标位置在图表信息中对应的关联内容。也即,获得关联文本对应地关联内容。
步骤S107、根据所述关联文本对所述关联内容进行虚假检测,获得所述关联文本和所述关联内容之间的差异性,并根据所述差异性确定所述图表内容对应的图表异常信息。
示例性地,关联文本为图表内容对应的文本描述,关联内容为关联文本描述的图表内容中的图表区域。
例如,关联文本为“下列图片中的人物面部细节相对于现有技术的展示更加清晰”,关联内容为图片中的人物面部对应的图片区域。
示例性地,通过使用机器学习模型,对关联内容和关联文本之间的关联关系进行分析,当关联内容和关联文本之间的关联关系为互相关时,则检测出关联文本和关联内容之间的差异性较小,则图表内容不存在异常;当关联内容和关联文本之间的关联关系为互不相关时,则检测出关联文本和关联内容之间的差异性较大,则图表内容存在图表异常。
示例性地,根据关联内容和关联文本之间互相关的强度来表示关联文本和关联内容之间的差异性,互相关的强度越强则关联文本和关联内容之间的差异性越小,互相关的强度越弱则关联文本和关联内容之间的差异性越大。进而通过对比差异性,可以确定图表内容对应的图表异常信息。
在一些实施方式中,所述根据所述关联文本对所述关联内容进行虚假检测,获得所述关联文本和所述关联内容之间的差异性,包括:利用文本分类模型对所述关联文本进行语义分类,获得所述关联文本对应的第一语义分布;利用多模态分类模型对所述关联文本和所述关联内容进行融合分类,获得所述关联文本对应的第二语义分布;根据所述第一语义分布和所述第二语义分布确定所述关联内容对所述关联文本进行分类时所对应的分类增益;根据所述分类增益确定所述关联文本和所述关联内容之间的所述差异性。
示例性地,通过训练一个文本分类模型,可以将关联文本分为不同的语义类别。可以使用机器学习算法,如支持向量机、朴素贝叶斯,或者深度学习模型,如卷积神经网络(CNN)或循环神经网络(RNN)来进行文本分类,进而使用文本分类模型对关联文本进行语义分类。
示例性地,利用多模态分类模型对关联文本和关联内容进行融合分类,其中,多模态分类模型对应的分类类型与文本类型模型对应的分类类型相同。当关联内容与关联文本相关时,则当关联内容与关联文本融合后,可以更好的分类出关联文本对应的分类类型;当关联内容与关联文本不相关时,则将关联内容与关联文本进行融合后,则将影响关联文本对应的分类类型,从而当关联内容与关联文本相关时,则多模态分类模型对应的分类结果与关联文本对应的分类结果将差异性较小,当关联内容与关联文本不相关时,则多模态分类模型对应的分类结果与关联文本对应的分类结果将差异性较大。
示例性地,根据文本分类模型对关联文本进行类型分类,获得关联文本对应的第一语义分布。这个语义分布表示关联文本属于不同语义类别的概率分布。
示例性地,利用多模态分类模型对关联文本和关联内容进行融合分类,获得关联文本对应的第二语义分布。这个语义分布表示关联文本在关联文本和关联内容进行融合后的分类结果属于不同语义类别的概率分布。
示例性地,根据第一语义分布和第二语义分布,确定关联内容对关联文本的分类增益。分类增益表示关联内容对关联文本进行分类时的帮助程度。可以根据语义分布之间的差异、相关性等指标来计算分类增益。根据分类增益,确定关联文本与关联内容之间的差异性。差异性反映了关联文本和关联内容之间的不一致程度。较大的分类增益表示关联文本和关联内容之间差异较大,较小的分类增益表示差异较小。
步骤S108、根据所述文本异常信息确定所述打印内容对应的文本异常描述,以及根据所述图表异常信息确定所述打印内容对应的图表异常描述。
示例性地,文本异常信息可以包括文本错误、文本错误对应的正确文本,以及文本错误对应的错误类型。进而将上述文本异常信息转换成用户可以快速理解的文本异常描述,从而为后续的语音播放提供支撑。
示例性地,图表异常信息可以包括图表错误、图表错误的错误类型。进而将上述图表异常信息转换成用户可以快速理解的图表异常描述,从而为后续的语音播放提供支撑。
示例性地,在生成文本异常描述和图表异常描述时,需要充分考虑异常信息的类型、程度和影响范围,同时结合领域知识和可视化技巧,向用户提供清晰的解释和帮助。具体而言,异常描述应该尽可能简洁明了,并且注重指出问题的本质和解决方法,帮助用户对问题有充分的理解和应对策略。
在一些实施方式中,所述根据所述文本异常信息确定所述打印内容对应的文本异常描述,以及根据所述图表异常信息确定所述打印内容对应的图表异常描述,包括:确定第一描述规则和第二描述规则,根据所述第一描述规则将所述所述文本异常信息转换成所述文本异常描述;根据所述第二描述规则将所述所述图表异常信息转换成所述图表异常描述。
示例性地,根据文本异常信息的类型和特征,确定第一描述规则。例如,可以设置规则,将具体的异常类型映射到相应的异常描述词汇或短语上。规则的设计可以基于先验知识、统计分析或专家判断等。
示例性地,根据第一描述规则,将文本异常信息转换成对应的文本异常描述。根据规则的定义,将异常信息映射到相应的描述词汇或短语上,形成文本异常描述。例如,如果文本异常信息是字符串拼写错误,第一描述规则可以是"拼写错误",则将文本异常信息转换成"该文本存在拼写错误"的文本异常描述。
示例性地,根据图表异常信息的类型和特征,确定第二描述规则。例如,可以设置规则,将异常类型映射到对应的图表异常描述词汇或短语上。规则的设计可以基于先验知识、统计分析或专家判断等。
示例性地,根据第二描述规则,将图表异常信息转换成对应的图表异常描述。根据规则的定义,将异常信息映射到相应的描述词汇或短语上,形成图表异常描述。例如,如果异常信息是图表数据伪造,第二描述规则可以是"存在数据伪造",则将异常信息转换成"该图表存在数据伪造"的图表异常描述。
示例性地,第一描述规则和第二描述规则的设计需要充分考虑异常类型的多样性和特征的丰富性,以尽可能准确地将异常信息转换成对应的描述。同时,为了提高描述的表达能力,可以结合语言模型、领域知识和语义规则等,使异常描述更加准确、清晰和易理解。
步骤S109、将所述文本异常描述利用TTS转换成第一语音数据,以及将所述图表异常描述利用TTS转换成第二语音数据,并将所述第一语音数据和所述第二语音数据进行语音播报。
示例性地,使用TTS(Text-to-Speech)技术将文本异常描述和图表异常描述转换成相应的语音数据。TTS是一种将文本转换成语音的技术,它可以通过识别文本中的语义和语法规则,并生成相应的语音输出。
示例性地,选择适合的TTS工具或引擎进行转换。市面上有多种TTS工具可供选择,如Google Text-to-Speech、MicrosoftAzure Speech、OpenAI TTS等。根据需求和使用场景,选择性能和质量较好的TTS工具。
示例性地,将文本异常描述输入到TTS工具中,进行文本到语音的转换。根据选择的TTS工具,提供相应的API接口或SDK进行调用和处理。将文本异常描述传递给TTS工具,生成对应的第一语音数据。将图表异常描述输入到TTS工具中,进行文本到语音的转换。同样,将图表异常描述传递给TTS工具,生成对应的第二语音数据。
示例性地,与打印机通信连接地语音播放器将生成的第一语音数据和第二语音数据进行语音播报。或者,将第一语音数据和第二语音数据发送至发送打印请求地终端,进而利用该终端对应地音频播放器来播放第一语音数据和第二语音数据。进而使得用户可及时获得打印内容中对应地异常问题,并及时进行解决。
示例性地,TTS转换的质量和自然度会直接影响语音播报的效果。选择合适的TTS工具和调整相应的配置参数,以提高语音转换的质量和与人类语音的接近程度。此外,在进行语音播报时,还可以根据需要添加合适的音效和音频处理来提升语音的可理解性和听觉体验。
示例性地,在获得图表异常信息和文本异常信息后,根据图表异常信息和文本异常信息对应地异常类型确定其对打印内容的影响程度,进而将图表异常信息和文本异常信息划分为不同级别或类别。例如,可以将异常级别分为严重、中等和轻微等级别,或者根据异常的具体影响范围和严重程度进行划分。进而根据异常影响程度的划分,确定相应的播报方式。不同异常情况可能需要使用不同的方式进行播报,以便更好地传达异常信息。例如,对于严重或紧急的异常情况,可以采用声音响亮、语速较快的播报方式,以引起用户的注意。对于中等或轻微的异常情况,可以采用声音柔和、语速适中的播报方式,以提醒用户但不造成过度干扰。
可选地,划分异常影响程度和选择播报方式应该根据实际应用场景和需求进行灵活调整。不同的应用可能有不同的划分标准和播报需求,因此在进行划分和选择时需要综合考虑实际情况,以达到最佳的用户体验和信息传达效果。
本实施例提供的TTS语音播报方法的一个应用场景为:用户向打印机发送打印请求,并根据打印请求获得对应的打印内容;对打印内容进行内容分类,获得打印内容对应的文本内容和图表内容;利用文本纠错模型对文本内容进行识别,获得文本内容对应的异常位置的位置宽度和异常位置的中心位置;根据位置宽度和中心位置确定文本内容对应的文本异常信息;从文本内容中获得图表内容对应的关联文本,并根据关联文本确定图表内容对应的目标位置;根据目标位置和图表内容确定关联文本对应的关联内容;根据关联文本对关联内容进行虚假检测,获得关联文本和关联内容之间的差异性,并根据差异性确定图表内容对应的图表异常信息;根据文本异常信息确定打印内容对应的文本异常描述,以及根据图表异常信息确定打印内容对应的图表异常描述;将文本异常描述利用TTS转换成第一语音数据,以及将图表异常描述利用TTS转换成第二语音数据,并将第一语音数据和第二语音数据进行语音播报。可见,本申请中通过文本纠错模型和虚假检测,可以识别文本和图表内容中的异常情况或虚假信息。这有助于提前发现和解决问题,减少错误和误导。通过自动化识别打印内容对应的异常情况,并将异常信息转换为语音数据进行语音播报,可以实现及时的异常通知和处理,提高工作效率,进而解决了相关技术中在用户使用打印机进行文件打印时,无法对打印内容进行检查,从而无法通过语音播报的方式提醒用户打印内容可能存在异常,进而使得用户在将打印结果发送给用户的客户或合作伙伴时,打印结果中的打印错误会给用户的客户或者合作伙伴留下不专业的印象,影响了用户的专业性的问题。
请参阅图2,图2为本申请实施例提供的一种TTS语音播报装置200,该TTS语音播报装置200包括请求获取模块201、数据分类模块202、数据识别模块203、异常确定模块204、位置确定模块205、关联确定模块206、异常获得模块207、异常描述模块208、语音播报模块209,其中,请求获取模块201,用于获得打印请求,并根据所述打印请求获得对应的打印内容;数据分类模块202,用于对所述打印内容进行内容分类,获得所述打印内容对应的文本内容和图表内容;数据识别模块203,用于利用文本纠错模型对所述文本内容进行识别,获得所述文本内容对应的异常位置的位置宽度和所述异常位置的中心位置;异常确定模块204,用于根据所述位置宽度和所述中心位置确定所述文本内容对应的文本异常信息;位置确定模块205,用于从所述文本内容中获得所述图表内容对应的关联文本,并根据所述关联文本确定所述图表内容对应的目标位置;关联确定模块206,用于根据所述目标位置和所述图表内容确定所述关联文本对应的关联内容;异常获得模块207,用于根据所述关联文本对所述关联内容进行虚假检测,获得所述关联文本和所述关联内容之间的差异性,并根据所述差异性确定所述图表内容对应的图表异常信息;异常描述模块208,用于根据所述文本异常信息确定所述打印内容对应的文本异常描述,以及根据所述图表异常信息确定所述打印内容对应的图表异常描述;语音播报模块209,用于将所述文本异常描述利用TTS转换成第一语音数据,以及将所述图表异常描述利用TTS转换成第二语音数据,并将所述第一语音数据和所述第二语音数据进行语音播报。
在一些实施方式中,数据识别模块203在获得所述文本纠错模型过程中,执行:
获得训练数据,所述训练数据包括文本数据和所述文本数据对应的异常位置和异常宽度;
确定所述文本纠错模型对应的初始模型参数,并利用所述初始模型参数下的所述文本纠错模型的词向量层对所述文本数据进行向量表示,获得所述文本数据对应的第一文本向量;
利用所述初始模型参数下的所述文本纠错模型的高斯偏置层对所述第一文本向量的注意力位置进行调整,获得第二文本向量;
利用所述初始模型参数下的所述文本纠错模型的位置确定层对所述第二文本向量进行位置预测,获得所述文本数据对应的异常预测位置和异常预测宽度;
计算所述异常位置和所述异常预测位置之间的第一误差和所述异常宽度和所述异常预测宽度之间的第二误差;
根据所述第一误差和所述第二误差更新所述初始模型参数,并根据更新后的所述初始模型参数重新计算所述第一误差和所述第二误差,当所述第一误差和所述第二误差满足预设条件时,则确定所述文本纠错模型。
在一些实施方式中,数据识别模块203在所述利用所述初始模型参数下的所述文本纠错模型的高斯偏置层对所述第一文本向量的注意力位置进行调整,获得第二文本向量过程中,执行:
根据所述高斯偏置层确定所述文本数据对应的初始预测位置和初始预测宽度,并根据所述初始预测位置和所述初始预测宽度确定所述第一文本向量对应的偏离程度;
将所述偏离程度和所述第一文本向量进行加和,获得所述第二文本向量;
其中,根据下列公式获得所述偏离程度:
Gi表示所述文本数据中第i个文本对应的偏离程度,i表示当前文本位置,Pi表示所述初始预测位置,σi表示标准差,其中,Di表示所述初始预测宽度。
在一些实施方式中,数据识别模块203在获得所述偏离程度过程中,还执行:
确定额外偏置,并根据所述额外偏置对所述偏离程度进行改进,获得改进后的所述偏离程度;
其中,根据下列公式获得改进后的所述偏离程度:
G’i表示所述文本数据中第i个文本对应的改进后的偏离程度,i表示当前文本位置,Pi表示所述初始预测位置,σi表示标准差,其中,Di表示所述初始预测宽度,a表示常量系数,b表示所述额外偏置。
在一些实施方式中,所述第一文本向量至少包括query向量,数据识别模块203在所述根据所述高斯偏置层确定所述文本数据对应的初始预测位置和初始预测宽度过程中,执行:
利用所述高斯偏置层中的第一前向神经网络将所述query向量映射为位置隐藏矩阵;
通过所述高斯偏置层中的第一线性神经网络将所述位置隐藏矩阵映射为位置标量;
利用所述高斯偏置层中的第二前向神经网络将所述query向量映射为窗口隐藏矩阵;
通过所述高斯偏置层中的第二线性神经网络将所述窗口隐藏矩阵映射为窗口标量;
根据所述位置标量和所述窗口标量确定所述文本数据对应的所述初始预测位置和所述初始预测宽度;
其中,根据下列公式获得所述初始预测位置和所述初始预测宽度:
Pi表示所述初始预测位置,Di表示所述初始预测宽度,I表示放缩系数,用于将Pi和Di放缩至所述文本数据对应的文本长度范围内,li表示所述位置标量,zi表示所述窗口标量。
在一些实施方式中,异常确定模块204在所述根据所述位置宽度和所述中心位置确定所述文本内容对应的文本异常信息过程中,执行:
根据所述位置宽度和所述中心位置从所述文本内容中获得对应的异常文本以及包含所述异常文本对应的异常语句;
根据所述异常语句对所述异常文本进行推理,获得所述异常文本对应的正确文本;
根据所述异常文本和所述正确文本确定所述文本内容对应的所述文本异常信息。
在一些实施方式中,异常获得模块207在所述根据所述关联文本对所述关联内容进行虚假检测,获得所述关联文本和所述关联内容之间的差异性过程中,执行:
利用文本分类模型对所述关联文本进行语义分类,获得所述关联文本对应的第一语义分布;
利用多模态分类模型对所述关联文本和所述关联内容进行融合分类,获得所述关联文本对应的第二语义分布;
根据所述第一语义分布和所述第二语义分布确定所述关联内容对所述关联文本进行分类时所对应的分类增益;
根据所述分类增益确定所述关联文本和所述关联内容之间的所述差异性。
在一些实施方式中,异常描述模块208在所述根据所述文本异常信息确定所述打印内容对应的文本异常描述,以及根据所述图表异常信息确定所述打印内容对应的图表异常描述过程中,执行:
确定第一描述规则和第二描述规则,根据所述第一描述规则将所述所述文本异常信息转换成所述文本异常描述;
根据所述第二描述规则将所述所述图表异常信息转换成所述图表异常描述。
在一些实施方式中,TTS语音播报装置200可应用于打印机。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的TTS语音播报装置200的具体工作过程,可以参考前述TTS语音播报方法实施例中的对应过程,在此不再赘述。
请参阅图3,图3为本发明实施例提供的一种打印机的结构示意性框图。
如图3所示,打印机300包括处理器301和存储器302,处理器301和存储器302通过总线303连接,该总线比如为I2C(Inter-integrated Circuit)总线。
具体地,处理器301用于提供计算和控制能力,支撑整个打印机的运行。处理器301可以是中央处理单元(Central Processing Unit,CPU),该处理器301还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
具体地,存储器302可以是Flash芯片、只读存储器(ROM,Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本发明实施例方案相关的部分结构的框图,并不构成对本发明实施例方案所应用于其上的打印机的限定,具体的服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器用于运行存储在存储器中的计算机程序,并在执行所述计算机程序时实现本发明实施例提供的任意一种所述的TTS语音播报方法。
在一实施例中,所述处理器用于运行存储在存储器中的计算机程序,并在执行所述计算机程序时实现如下步骤:
获得打印请求,并根据所述打印请求获得对应的打印内容;
对所述打印内容进行内容分类,获得所述打印内容对应的文本内容和图表内容;
利用文本纠错模型对所述文本内容进行识别,获得所述文本内容对应的异常位置的位置宽度和所述异常位置的中心位置;
根据所述位置宽度和所述中心位置确定所述文本内容对应的文本异常信息;
从所述文本内容中获得所述图表内容对应的关联文本,并根据所述关联文本确定所述图表内容对应的目标位置;
根据所述目标位置和所述图表内容确定所述关联文本对应的关联内容;
根据所述关联文本对所述关联内容进行虚假检测,获得所述关联文本和所述关联内容之间的差异性,并根据所述差异性确定所述图表内容对应的图表异常信息;
根据所述文本异常信息确定所述打印内容对应的文本异常描述,以及根据所述图表异常信息确定所述打印内容对应的图表异常描述;
将所述文本异常描述利用TTS转换成第一语音数据,以及将所述图表异常描述利用TTS转换成第二语音数据,并将所述第一语音数据和所述第二语音数据进行语音播报。
在一些实施方式中,处理器301在获得所述文本纠错模型过程中,执行:
获得训练数据,所述训练数据包括文本数据和所述文本数据对应的异常位置和异常宽度;
确定所述文本纠错模型对应的初始模型参数,并利用所述初始模型参数下的所述文本纠错模型的词向量层对所述文本数据进行向量表示,获得所述文本数据对应的第一文本向量;
利用所述初始模型参数下的所述文本纠错模型的高斯偏置层对所述第一文本向量的注意力位置进行调整,获得第二文本向量;
利用所述初始模型参数下的所述文本纠错模型的位置确定层对所述第二文本向量进行位置预测,获得所述文本数据对应的异常预测位置和异常预测宽度;
计算所述异常位置和所述异常预测位置之间的第一误差和所述异常宽度和所述异常预测宽度之间的第二误差;
根据所述第一误差和所述第二误差更新所述初始模型参数,并根据更新后的所述初始模型参数重新计算所述第一误差和所述第二误差,当所述第一误差和所述第二误差满足预设条件时,则确定所述文本纠错模型。
在一些实施方式中,处理器301在所述利用所述初始模型参数下的所述文本纠错模型的高斯偏置层对所述第一文本向量的注意力位置进行调整,获得第二文本向量过程中,执行:
根据所述高斯偏置层确定所述文本数据对应的初始预测位置和初始预测宽度,并根据所述初始预测位置和所述初始预测宽度确定所述第一文本向量对应的偏离程度;
将所述偏离程度和所述第一文本向量进行加和,获得所述第二文本向量;
其中,根据下列公式获得所述偏离程度:
Gi表示所述文本数据中第i个文本对应的偏离程度,i表示当前文本位置,Pi表示所述初始预测位置,σi表示标准差,其中,Di表示所述初始预测宽度。
在一些实施方式中,处理器301在获得所述偏离程度过程中,还执行:
确定额外偏置,并根据所述额外偏置对所述偏离程度进行改进,获得改进后的所述偏离程度;
其中,根据下列公式获得改进后的所述偏离程度:
G’i表示所述文本数据中第i个文本对应的改进后的偏离程度,i表示当前文本位置,Pi表示所述初始预测位置,σi表示标准差,其中,Di表示所述初始预测宽度,a表示常量系数,b表示所述额外偏置。
在一些实施方式中,所述第一文本向量至少包括query向量,处理器301在所述根据所述高斯偏置层确定所述文本数据对应的初始预测位置和初始预测宽度过程中,执行:
利用所述高斯偏置层中的第一前向神经网络将所述query向量映射为位置隐藏矩阵;
通过所述高斯偏置层中的第一线性神经网络将所述位置隐藏矩阵映射为位置标量;
利用所述高斯偏置层中的第二前向神经网络将所述query向量映射为窗口隐藏矩阵;
通过所述高斯偏置层中的第二线性神经网络将所述窗口隐藏矩阵映射为窗口标量;
根据所述位置标量和所述窗口标量确定所述文本数据对应的所述初始预测位置和所述初始预测宽度;
其中,根据下列公式获得所述初始预测位置和所述初始预测宽度:
Pi表示所述初始预测位置,Di表示所述初始预测宽度,I表示放缩系数,用于将Pi和Di放缩至所述文本数据对应的文本长度范围内,li表示所述位置标量,zi表示所述窗口标量。
在一些实施方式中,处理器301在所述根据所述位置宽度和所述中心位置确定所述文本内容对应的文本异常信息过程中,执行:
根据所述位置宽度和所述中心位置从所述文本内容中获得对应的异常文本以及包含所述异常文本对应的异常语句;
根据所述异常语句对所述异常文本进行推理,获得所述异常文本对应的正确文本;
根据所述异常文本和所述正确文本确定所述文本内容对应的所述文本异常信息。
在一些实施方式中,处理器301在所述根据所述关联文本对所述关联内容进行虚假检测,获得所述关联文本和所述关联内容之间的差异性过程中,执行:
利用文本分类模型对所述关联文本进行语义分类,获得所述关联文本对应的第一语义分布;
利用多模态分类模型对所述关联文本和所述关联内容进行融合分类,获得所述关联文本对应的第二语义分布;
根据所述第一语义分布和所述第二语义分布确定所述关联内容对所述关联文本进行分类时所对应的分类增益;
根据所述分类增益确定所述关联文本和所述关联内容之间的所述差异性。
在一些实施方式中,处理器301在所述根据所述文本异常信息确定所述打印内容对应的文本异常描述,以及根据所述图表异常信息确定所述打印内容对应的图表异常描述过程中,执行:
确定第一描述规则和第二描述规则,根据所述第一描述规则将所述所述文本异常信息转换成所述文本异常描述;
根据所述第二描述规则将所述所述图表异常信息转换成所述图表异常描述。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的打印机的具体工作过程,可以参考前述TTS语音播报方法实施例中的对应过程,在此不再赘述。
本发明实施例还提供一种存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如本发明实施例说明书提供的任一项TTS语音播报方法的步骤。
其中,所述存储介质可以是前述实施例所述的打印机的内部存储单元,例如所述打印机的硬盘或内存。所述存储介质也可以是所述打印机的外部存储设备,例如所述打印机上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施例中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本发明的具体实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (5)
1.一种TTS语音播报方法,其特征在于,所述方法包括:
获得打印请求,并根据所述打印请求获得对应的打印内容;
对所述打印内容进行内容分类,获得所述打印内容对应的文本内容和图表内容;
利用文本纠错模型对所述文本内容进行识别,获得所述文本内容对应的异常位置的位置宽度和所述异常位置的中心位置;
根据所述位置宽度和所述中心位置确定所述文本内容对应的文本异常信息;
从所述文本内容中获得所述图表内容对应的关联文本,并根据所述关联文本确定所述图表内容对应的目标位置;
根据所述目标位置和所述图表内容确定所述关联文本对应的关联内容;
根据所述关联文本对所述关联内容进行虚假检测,获得所述关联文本和所述关联内容之间的差异性,并根据所述差异性确定所述图表内容对应的图表异常信息;
根据所述文本异常信息确定所述打印内容对应的文本异常描述,以及根据所述图表异常信息确定所述打印内容对应的图表异常描述;
将所述文本异常描述利用TTS转换成第一语音数据,以及将所述图表异常描述利用TTS转换成第二语音数据,并将所述第一语音数据和所述第二语音数据进行语音播报;
获得所述文本纠错模型,包括:
获得训练数据,所述训练数据包括文本数据和所述文本数据对应的异常位置和异常宽度;
确定所述文本纠错模型对应的初始模型参数,并利用所述初始模型参数下的所述文本纠错模型的词向量层对所述文本数据进行向量表示,获得所述文本数据对应的第一文本向量;
利用所述初始模型参数下的所述文本纠错模型的高斯偏置层对所述第一文本向量的注意力位置进行调整,获得第二文本向量;
利用所述初始模型参数下的所述文本纠错模型的位置确定层对所述第二文本向量进行位置预测,获得所述文本数据对应的异常预测位置和异常预测宽度;
计算所述异常位置和所述异常预测位置之间的第一误差和所述异常宽度和所述异常预测宽度之间的第二误差;
根据所述第一误差和所述第二误差更新所述初始模型参数,并根据更新后的所述初始模型参数重新计算所述第一误差和所述第二误差,当所述第一误差和所述第二误差满足预设条件时,则确定所述文本纠错模型;
所述利用所述初始模型参数下的所述文本纠错模型的高斯偏置层对所述第一文本向量的注意力位置进行调整,获得第二文本向量,包括:
根据所述高斯偏置层确定所述文本数据对应的初始预测位置和初始预测宽度,并根据所述初始预测位置和所述初始预测宽度确定所述第一文本向量对应的偏离程度;
将所述偏离程度和所述第一文本向量进行加和,获得所述第二文本向量;
其中,根据下列公式获得所述偏离程度:
Gi表示所述文本数据中第i个文本对应的偏离程度,i表示当前文本位置,Pi表示所述初始预测位置,σi表示标准差,其中,Di表示所述初始预测宽度;
所述根据所述关联文本对所述关联内容进行虚假检测,获得所述关联文本和所述关联内容之间的差异性,包括:
利用文本分类模型对所述关联文本进行语义分类,获得所述关联文本对应的第一语义分布;
利用多模态分类模型对所述关联文本和所述关联内容进行融合分类,获得所述关联文本对应的第二语义分布;
根据所述第一语义分布和所述第二语义分布确定所述关联内容对所述关联文本进行分类时所对应的分类增益;
根据所述分类增益确定所述关联文本和所述关联内容之间的所述差异性所述根据所述位置宽度和所述中心位置确定所述文本内容对应的文本异常信息,包括:
根据所述位置宽度和所述中心位置从所述文本内容中获得对应的异常文本以及包含所述异常文本对应的异常语句;
根据所述异常语句对所述异常文本进行推理,获得所述异常文本对应的正确文本;
根据所述异常文本和所述正确文本确定所述文本内容对应的所述文本异常信息;
所述根据所述文本异常信息确定所述打印内容对应的文本异常描述,以及根据所述图表异常信息确定所述打印内容对应的图表异常描述,包括:
确定第一描述规则和第二描述规则,根据所述第一描述规则将所述文本异常信息转换成所述文本异常描述;
根据所述第二描述规则将所述图表异常信息转换成所述图表异常描述。
2.根据权利要求1所述的方法,其特征在于,获得所述偏离程度,所述方法还包括:
确定额外偏置,并根据所述额外偏置对所述偏离程度进行改进,获得改进后的所述偏离程度;
其中,根据下列公式获得改进后的所述偏离程度:
G’i表示所述文本数据中第i个文本对应的改进后的偏离程度,i表示当前文本位置,Pi表示所述初始预测位置,σi表示标准差,其中,Di表示所述初始预测宽度,a表示常量系数,b表示所述额外偏置。
3.根据权利要求1所述的方法,其特征在于,所述第一文本向量至少包括query向量,所述根据所述高斯偏置层确定所述文本数据对应的初始预测位置和初始预测宽度,包括:
利用所述高斯偏置层中的第一前向神经网络将所述query向量映射为位置隐藏矩阵;
通过所述高斯偏置层中的第一线性神经网络将所述位置隐藏矩阵映射为位置标量;
利用所述高斯偏置层中的第二前向神经网络将所述query向量映射为窗口隐藏矩阵;
通过所述高斯偏置层中的第二线性神经网络将所述窗口隐藏矩阵映射为窗口标量;
根据所述位置标量和所述窗口标量确定所述文本数据对应的所述初始预测位置和所述初始预测宽度;
其中,根据下列公式获得所述初始预测位置和所述初始预测宽度:
Pi表示所述初始预测位置,Di表示所述初始预测宽度,I表示放缩系数,用于将Pi和Di放缩至所述文本数据对应的文本长度范围内,li表示所述位置标量,zi表示所述窗口标量。
4.一种TTS语音播报装置,其特征在于,包括:
请求获取模块,用于获得打印请求,并根据所述打印请求获得对应的打印内容;
数据分类模块,用于对所述打印内容进行内容分类,获得所述打印内容对应的文本内容和图表内容;
数据识别模块,用于利用文本纠错模型对所述文本内容进行识别,获得所述文本内容对应的异常位置的位置宽度和所述异常位置的中心位置;
异常确定模块,用于根据所述位置宽度和所述中心位置确定所述文本内容对应的文本异常信息;
位置确定模块,用于从所述文本内容中获得所述图表内容对应的关联文本,并根据所述关联文本确定所述图表内容对应的目标位置;
关联确定模块,用于根据所述目标位置和所述图表内容确定所述关联文本对应的关联内容;
异常获得模块,用于根据所述关联文本对所述关联内容进行虚假检测,获得所述关联文本和所述关联内容之间的差异性,并根据所述差异性确定所述图表内容对应的图表异常信息;
异常描述模块,用于根据所述文本异常信息确定所述打印内容对应的文本异常描述,以及根据所述图表异常信息确定所述打印内容对应的图表异常描述;
语音播报模块,用于将所述文本异常描述利用TTS转换成第一语音数据,以及将所述图表异常描述利用TTS转换成第二语音数据,并将所述第一语音数据和所述第二语音数据进行语音播报;
所述数据识别模块在获得所述文本纠错模型过程中,执行:
获得训练数据,所述训练数据包括文本数据和所述文本数据对应的异常位置和异常宽度;
确定所述文本纠错模型对应的初始模型参数,并利用所述初始模型参数下的所述文本纠错模型的词向量层对所述文本数据进行向量表示,获得所述文本数据对应的第一文本向量;
利用所述初始模型参数下的所述文本纠错模型的高斯偏置层对所述第一文本向量的注意力位置进行调整,获得第二文本向量;
利用所述初始模型参数下的所述文本纠错模型的位置确定层对所述第二文本向量进行位置预测,获得所述文本数据对应的异常预测位置和异常预测宽度;
计算所述异常位置和所述异常预测位置之间的第一误差和所述异常宽度和所述异常预测宽度之间的第二误差;
根据所述第一误差和所述第二误差更新所述初始模型参数,并根据更新后的所述初始模型参数重新计算所述第一误差和所述第二误差,当所述第一误差和所述第二误差满足预设条件时,则确定所述文本纠错模型;
所述数据识别模块在所述利用所述初始模型参数下的所述文本纠错模型的高斯偏置层对所述第一文本向量的注意力位置进行调整,获得第二文本向量过程中,执行:
根据所述高斯偏置层确定所述文本数据对应的初始预测位置和初始预测宽度,并根据所述初始预测位置和所述初始预测宽度确定所述第一文本向量对应的偏离程度;
将所述偏离程度和所述第一文本向量进行加和,获得所述第二文本向量;
其中,根据下列公式获得所述偏离程度:
Gi表示所述文本数据中第i个文本对应的偏离程度,i表示当前文本位置,Pi表示所述初始预测位置,σi表示标准差,其中,Di表示所述初始预测宽度;
所述数据识别模块在获得所述偏离程度过程中,还执行:
确定额外偏置,并根据所述额外偏置对所述偏离程度进行改进,获得改进后的所述偏离程度;
其中,根据下列公式获得改进后的所述偏离程度:
G′i表示所述文本数据中第i个文本对应的改进后的偏离程度,i表示当前文本位置,Pi表示所述初始预测位置,σi表示标准差,其中,Di表示所述初始预测宽度,a表示常量系数,b表示所述额外偏置;
所述异常确定模块在所述根据所述位置宽度和所述中心位置确定所述文本内容对应的文本异常信息过程中,执行:
根据所述位置宽度和所述中心位置从所述文本内容中获得对应的异常文本以及包含所述异常文本对应的异常语句;
根据所述异常语句对所述异常文本进行推理,获得所述异常文本对应的正确文本;
根据所述异常文本和所述正确文本确定所述文本内容对应的所述文本异常信息;
所述异常获得模块在所述根据所述关联文本对所述关联内容进行虚假检测,获得所述关联文本和所述关联内容之间的差异性过程中,执行:
利用文本分类模型对所述关联文本进行语义分类,获得所述关联文本对应的第一语义分布;
利用多模态分类模型对所述关联文本和所述关联内容进行融合分类,获得所述关联文本对应的第二语义分布;
根据所述第一语义分布和所述第二语义分布确定所述关联内容对所述关联文本进行分类时所对应的分类增益;
根据所述分类增益确定所述关联文本和所述关联内容之间的所述差异性;
所述异常描述模块在所述根据所述文本异常信息确定所述打印内容对应的文本异常描述,以及根据所述图表异常信息确定所述打印内容对应的图表异常描述过程中,执行:
确定第一描述规则和第二描述规则,根据所述第一描述规则将所述文本异常信息转换成所述文本异常描述;
根据所述第二描述规则将所述图表异常信息转换成所述图表异常描述。
5.一种打印机,其特征在于,所述打印机包括处理器、存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至3中任一项所述的TTS语音播报方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410117168.4A CN117666981B (zh) | 2024-01-29 | 2024-01-29 | Tts语音播报方法、装置以及打印机 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410117168.4A CN117666981B (zh) | 2024-01-29 | 2024-01-29 | Tts语音播报方法、装置以及打印机 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117666981A CN117666981A (zh) | 2024-03-08 |
CN117666981B true CN117666981B (zh) | 2024-05-14 |
Family
ID=90073459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410117168.4A Active CN117666981B (zh) | 2024-01-29 | 2024-01-29 | Tts语音播报方法、装置以及打印机 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117666981B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110556093A (zh) * | 2019-09-17 | 2019-12-10 | 浙江核新同花顺网络信息股份有限公司 | 一种语音标注方法及其系统 |
CN111968616A (zh) * | 2020-08-19 | 2020-11-20 | 浙江同花顺智能科技有限公司 | 一种语音合成模型的训练方法、装置、电子设备和存储介质 |
CN116069271A (zh) * | 2023-01-20 | 2023-05-05 | 北京三快在线科技有限公司 | 云打印机的订单数据处理方法、装置、云打印机及介质 |
CN117389492A (zh) * | 2023-12-13 | 2024-01-12 | 珠海芯烨电子科技有限公司 | 一种热敏打印机来单提醒方法以及相关装置 |
CN117420974A (zh) * | 2023-12-18 | 2024-01-19 | 珠海芯烨电子科技有限公司 | 一种热敏打印机页模式控制方法以及相关装置 |
CN117456976A (zh) * | 2023-08-09 | 2024-01-26 | 山东科讯信息科技有限公司 | 一种语音播报控制方法、装置、设备及语音播报系统 |
-
2024
- 2024-01-29 CN CN202410117168.4A patent/CN117666981B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110556093A (zh) * | 2019-09-17 | 2019-12-10 | 浙江核新同花顺网络信息股份有限公司 | 一种语音标注方法及其系统 |
CN111968616A (zh) * | 2020-08-19 | 2020-11-20 | 浙江同花顺智能科技有限公司 | 一种语音合成模型的训练方法、装置、电子设备和存储介质 |
CN116069271A (zh) * | 2023-01-20 | 2023-05-05 | 北京三快在线科技有限公司 | 云打印机的订单数据处理方法、装置、云打印机及介质 |
CN117456976A (zh) * | 2023-08-09 | 2024-01-26 | 山东科讯信息科技有限公司 | 一种语音播报控制方法、装置、设备及语音播报系统 |
CN117389492A (zh) * | 2023-12-13 | 2024-01-12 | 珠海芯烨电子科技有限公司 | 一种热敏打印机来单提醒方法以及相关装置 |
CN117420974A (zh) * | 2023-12-18 | 2024-01-19 | 珠海芯烨电子科技有限公司 | 一种热敏打印机页模式控制方法以及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117666981A (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200334492A1 (en) | Ablation on observable data for determining influence on machine learning systems | |
WO2022142041A1 (zh) | 意图识别模型的训练方法、装置、计算机设备和存储介质 | |
CN111291566B (zh) | 一种事件主体识别方法、装置、存储介质 | |
CN111198948A (zh) | 文本分类校正方法、装置、设备及计算机可读存储介质 | |
CN116629275B (zh) | 一种基于大数据的智能决策支持系统及方法 | |
CN111091004B (zh) | 一种语句实体标注模型的训练方法、训练装置及电子设备 | |
CN110390110B (zh) | 用于语义匹配的预训练生成句子向量的方法和装置 | |
CN112613293B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN112668333A (zh) | 命名实体的识别方法和设备、以及计算机可读存储介质 | |
JP2019212115A (ja) | 検査装置、検査方法、プログラム及び学習装置 | |
CN114266252A (zh) | 命名实体识别方法、装置、设备及存储介质 | |
CN112699671B (zh) | 一种语言标注方法、装置、计算机设备和存储介质 | |
JP5097802B2 (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
CN116136955B (zh) | 文本转写方法、装置、电子设备及存储介质 | |
CN117666981B (zh) | Tts语音播报方法、装置以及打印机 | |
CN115187839B (zh) | 图文语义对齐模型训练方法及装置 | |
CN114254622B (zh) | 一种意图识别方法和装置 | |
CN115033683B (zh) | 摘要生成方法、装置、设备及存储介质 | |
CN115270818A (zh) | 一种意图识别方法及装置、存储介质、计算机设备 | |
CN111681670B (zh) | 信息识别方法、装置、电子设备及存储介质 | |
CN112528980A (zh) | Ocr识别结果纠正方法及其终端、系统 | |
CN115631746B (zh) | 热词识别方法、装置、计算机设备及存储介质 | |
KR102322899B1 (ko) | 딥러닝 nlp 모델을 활용한 뉴스 긍정도 분석 솔루션 및 장치 | |
CN117235234B (zh) | 对象信息获取方法、装置、计算机设备和存储介质 | |
CN113707148B (zh) | 语音识别准确率的确定方法、装置、设备以及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |