CN112016303B - 基于图神经网络的文本纠错方法、装置、设备及存储介质 - Google Patents
基于图神经网络的文本纠错方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112016303B CN112016303B CN202010926425.0A CN202010926425A CN112016303B CN 112016303 B CN112016303 B CN 112016303B CN 202010926425 A CN202010926425 A CN 202010926425A CN 112016303 B CN112016303 B CN 112016303B
- Authority
- CN
- China
- Prior art keywords
- corpus
- confusion
- combination
- text
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 87
- 238000012937 correction Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000004364 calculation method Methods 0.000 claims abstract description 85
- 239000013598 vector Substances 0.000 claims abstract description 64
- 238000012986 modification Methods 0.000 claims abstract description 13
- 230000004048 modification Effects 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000001228 spectrum Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 145
- 238000012216 screening Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 241000283690 Bos taurus Species 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 206010020718 hyperplasia Diseases 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000002105 tongue Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能领域,应用于智慧医疗领域,公开了基于图神经网络的文本纠错方法、装置、设备及存储介质,用于避免在医疗业务系统进行待测文本语料的文本纠错时进行大量的数据计算,提高了文本纠错效率。基于图神经网络的文本纠错方法包括:根据医疗业务预料建立形近混淆语料集合与近音混淆语料集合;基于预置的图神经网络建立形近混淆结构图谱以及近音混淆结构图谱;对形近混淆结构图谱以及近音混淆结构图谱依次进行图卷积操作与图注意力计算,得到混淆语料结构图谱;利用预置的向量提取器提取待测文本语料的字符向量,根据字符向量与混淆语料结构图谱之间的基础相似概率对待测文本语料进行更改处理,得到目标文本语料。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种基于图神经网络的文本纠错方法、装置、设备及存储介质。
背景技术
在人工智能领域中,中文纠错是自然语言处理中的一个纠察优化步骤,中文纠错的能力越高说明自然语言处理系统的处理准确性越高。中文纠错具体为从包含各种错误的文本中进行错误纠正,还原出正确的标准文本。随着科学技术的发展,中文纠错广泛应用于语音识别和社交网络等场景。在医疗场景下,医生在使用计算机外接键盘或外接语音接收器录入患者信息时,通过外接键盘打字录入文字时会出现拼音错误或相邻键盘按键敲击错误的情况,通过外接语音接收器进行语音转化文本的过程中会出现形近字或近音字转化错误的情况,这些错误在医疗场景下存在一定风险,特别是医生在记录关于患者病情或者治疗方案时产生的错误,不仅不利于患者的治疗和病情追踪,也容易加剧医患关系的紧张,阻碍着医疗系统的完善和医疗技术的进步。在现有的技术中,通过计算机大量的计算与排查,对文本文字进行纠错。
但利用现有的技术进行待测文本语料的文本纠错时,计算机需要进行大量的数据计算,耗费大量的时间,进而导致待测文本语料的文本纠错效率低下。
发明内容
本发明提供一种基于图神经网络的文本纠错方法、装置、设备及存储介质,用于避免在医疗业务系统进行待测文本语料的文本纠错时,进行大量的数据计算,提高了待测文本语料的文本纠错效率。
本发明第一方面提供了一种基于图神经网络的文本纠错方法,包括:获取医疗业务语料,根据所述医疗业务语料以及预置的字典建立形近混淆语料集合与近音混淆语料集合;基于预置的图神经网络建立所述形近混淆语料集合的形近混淆结构图谱以及所述近音混淆语料集合的近音混淆结构图谱;对所述形近混淆结构图谱以及所述近音混淆结构图谱依次进行图卷积操作与图注意力计算,得到混淆语料结构图谱;获取待测文本语料,利用预置的向量提取器提取所述待测文本语料的字符向量,计算所述字符向量与所述混淆语料结构图谱之间的基础相似概率,根据所述基础相似概率对所述待测文本语料进行更改处理,得到目标文本语料。
可选的,在本发明第一方面的第一种实现方式中,所述获取医疗业务语料,根据所述医疗业务语料以及预置的字典建立形近混淆语料集合与近音混淆语料集合包括:获取医疗业务语料,利用预置的相似度函数计算所述医疗业务语料与预置的字典中的标准语料之间的基础字形相似度;筛选出所述基础字形相似度大于相似阈值的目标字形相似度,将所述目标字形相似度对应的标准语料作为所述医疗业务语料的形近混淆语料,将所述医疗业务语料与所述形近混淆语料组合为形近混淆组合,通过所述形近混淆组合生成形近混淆语料集合;利用预置的模糊匹配算法将所述医疗业务语料转化为语料音标,筛选出所述语料音标中的目标音标,所述目标音标包括具有易混淆的韵母和/或声母;将目标音标转化为近音音标,并在所述预置的字典中查询标准音标与所述近音音标相同的标准语料,将所述标准音标与所述近音音标相同的标准语料作为所述医疗业务语料的近音混淆语料,将所述医疗业务语料与所述近音混淆语料组合为近音混淆组合,通过所述近音混淆组合生成近音混淆语料集合。
可选的,在本发明第一方面的第二种实现方式中,所述基于预置的图神经网络建立所述形近混淆语料集合的形近混淆结构图谱以及所述近音混淆语料集合的近音混淆结构图谱包括:在医疗业务语料中提取第一业务语料与第二业务语料,将所述第一业务语料与所述第二业务语料进行组合,得到待检测组合;根据所述待检测组合与所述形近混淆组合确定所述待检测组合位置坐标的第一位置元素,通过所述第一位置元素确定基础形近混淆矩阵;根据所述待检测组合与所述近音混淆组合确定所述待检测组合位置坐标的第二位置元素,通过所述第二位置元素确定基础近音混淆矩阵;利用预置的图神经网络生成所述基础形近混淆矩阵的形近混淆结构图谱以及所述基础近音混淆矩阵的近音混淆结构图谱。
可选的,在本发明第一方面的第三种实现方式中,所述根据所述待检测组合与所述形近混淆组合确定所述待检测组合位置坐标的第一位置元素,通过所述第一位置元素确定基础形近混淆矩阵包括:判断所述待检测组合是否为所述形近混淆组合;若所述待检测组合为所述形近混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第一位置元素标记为第一阈值;若所述待检测组合不为所述形近混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第一位置元素标记为第二阈值;通过所述待检测组合的位置坐标建立初始形近混淆矩阵,将所述第一位置元素录入所述初始形近混淆矩阵中,得到基础形近混淆矩阵。
可选的,在本发明第一方面的第四种实现方式中,所述根据所述待检测组合与所述近音混淆组合确定所述待检测组合位置坐标的第二位置元素,通过所述第二位置元素确定基础近音混淆矩阵包括:判断所述待检测组合是否为所述近音混淆组合;若所述待检测组合为所述近音混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第二位置元素标记为第三阈值;若所述待检测组合不为所述近音混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第二位置元素标记为第四阈值;通过所述待检测组合的位置坐标建立初始近音混淆矩阵,将所述第二位置元素录入所述初始近音混淆矩阵中,得到基础近音混淆矩阵。
可选的,在本发明第一方面的第五种实现方式中,对所述形近混淆结构图谱进行图卷积计算,并利用第一计算公式计算相邻形近语料信息,所述第一计算公式为:,其中,/>表示相邻形近语料信息,/>表示形近混淆结构图谱中的基础形近混淆矩阵,/>表示第/>卷积层的第一超参数,/>表示基础形近混淆矩阵的正则化矩阵,/>表示第/>卷积层的第二超参数;对所述近音混淆结构图谱进行图卷积计算,并利用第二计算公式计算相邻近音语料信息,所述第二计算公式为:/>,其中,/>表示相邻近音语料信息,/>表示近音混淆结构图谱中的基础近音混淆矩阵,/>表示第/>卷积层的第三超参数,/>表示基础近音混淆矩阵的正则化矩阵,/>表示第/>卷积层的第四超参数;利用第三计算公式对所述相邻形近语料信息与所述相邻近音语料信息进行图注意力计算,得到语料混淆结构矩阵,所述第三计算公式为:
,/>
其中,表示语料混淆结构矩阵,/>表示相邻形近语料信息或邻近音语料信息的第/>卷积层第/>行的语料信息,且/>为正整数,/>表示信息标记符,且/>,/>表示相邻形近语料信息或邻近音语料信息的第/>卷积层第/>个的语料信息的权重,/>表示要学习的权重矩阵,/>表示控制图注意力权重的超参数;采用所述预置的图神经网络生成所述语料混淆结构矩阵的混淆语料结构图谱。
可选的,在本发明第一方面的第六种实现方式中,所述获取待测文本语料,利用预置的向量提取器提取所述待测文本语料的字符向量,计算所述字符向量与所述混淆语料结构图谱之间的基础相似概率,根据所述基础相似概率对所述待测文本语料进行更改处理,得到目标文本语料包括:获取待测文本语料,利用预置的向量提取器提取所述待测文本语料中的字符向量;计算所述混淆语料结构图谱的语料混淆结构矩阵与所述字符向量之间的基础相似概率;选择所述基础相似概率的数值最大的目标相似概率,将所述目标相似概率对应的混淆文本语料作为更改文本语料,将所述待测文本语料替换为所述更改文本语料,得到目标文本语料,所述混淆文本语料为所述混淆语料结构图谱中的语料。
本发明第二方面提供了一种基于图神经网络的文本纠错装置,包括:获取模块,用于获取医疗业务语料,根据所述医疗业务语料以及预置的字典建立形近混淆语料集合与近音混淆语料集合;建立模块,用于基于预置的图神经网络建立所述形近混淆语料集合的形近混淆结构图谱以及所述近音混淆语料集合的近音混淆结构图谱;计算模块,用于对所述形近混淆结构图谱以及所述近音混淆结构图谱依次进行图卷积操作与图注意力计算,得到混淆语料结构图谱;更改模块,用于获取待测文本语料,利用预置的向量提取器提取所述待测文本语料的字符向量,计算所述字符向量与所述混淆语料结构图谱之间的基础相似概率,根据所述基础相似概率对所述待测文本语料进行更改处理,得到目标文本语料。
可选的,在本发明第二方面的第一种实现方式中,所述获取模块具体用于:获取医疗业务语料,利用预置的相似度函数计算所述医疗业务语料与预置的字典中的标准语料之间的基础字形相似度;筛选出所述基础字形相似度大于相似阈值的目标字形相似度,将所述目标字形相似度对应的标准语料作为所述医疗业务语料的形近混淆语料,将所述医疗业务语料与所述形近混淆语料组合为形近混淆组合,通过所述形近混淆组合生成形近混淆语料集合;利用预置的模糊匹配算法将所述医疗业务语料转化为语料音标,筛选出所述语料音标中的目标音标,所述目标音标包括具有易混淆的韵母和/或声母;将目标音标转化为近音音标,并在所述预置的字典中查询标准音标与所述近音音标相同的标准语料,将所述标准音标与所述近音音标相同的标准语料作为所述医疗业务语料的近音混淆语料,将所述医疗业务语料与所述近音混淆语料组合为近音混淆组合,通过所述近音混淆组合生成近音混淆语料集合。
可选的,在本发明第二方面的第二种实现方式中,所述建立模块包括:组合单元,用于在医疗业务语料中提取第一业务语料与第二业务语料,将所述第一业务语料与所述第二业务语料进行组合,得到待检测组合;第一确定单元,用于根据所述待检测组合与所述形近混淆组合确定所述待检测组合位置坐标的第一位置元素,通过所述第一位置元素确定基础形近混淆矩阵;第二确定单元,用于根据所述待检测组合与所述近音混淆组合确定所述待检测组合位置坐标的第二位置元素,通过所述第二位置元素确定基础近音混淆矩阵;生成单元,用于利用预置的图神经网络生成所述基础形近混淆矩阵的形近混淆结构图谱以及所述基础近音混淆矩阵的近音混淆结构图谱。
可选的,在本发明第二方面的第三种实现方式中,所述第一确定单元具体用于:判断所述待检测组合是否为所述形近混淆组合;若所述待检测组合为所述形近混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第一位置元素标记为第一阈值;若所述待检测组合不为所述形近混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第一位置元素标记为第二阈值;通过所述待检测组合的位置坐标建立初始形近混淆矩阵,将所述第一位置元素录入所述初始形近混淆矩阵中,得到基础形近混淆矩阵。
可选的,在本发明第二方面的第四种实现方式中,所述第二确定单元具体用于:判断所述待检测组合是否为所述近音混淆组合;若所述待检测组合为所述近音混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第二位置元素标记为第三阈值;若所述待检测组合不为所述近音混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第二位置元素标记为第四阈值;通过所述待检测组合的位置坐标建立初始近音混淆矩阵,将所述第二位置元素录入所述初始近音混淆矩阵中,得到基础近音混淆矩阵。
可选的,在本发明第二方面的第五种实现方式中,所述计算模块具体用于:对所述形近混淆结构图谱进行图卷积计算,并利用第一计算公式计算相邻形近语料信息,所述第一计算公式为:,其中,/>表示相邻形近语料信息,/>表示形近混淆结构图谱中的基础形近混淆矩阵,/>表示第/>卷积层的第一超参数,/>表示基础形近混淆矩阵的正则化矩阵,/>表示第/>卷积层的第二超参数;对所述近音混淆结构图谱进行图卷积计算,并利用第二计算公式计算相邻近音语料信息,所述第二计算公式为:,其中,/>表示相邻近音语料信息,/>表示近音混淆结构图谱中的基础近音混淆矩阵,/>表示第/>卷积层的第三超参数,/>表示基础近音混淆矩阵的正则化矩阵,/>表示第/>卷积层的第四超参数;利用第三计算公式对所述相邻形近语料信息与所述相邻近音语料信息进行图注意力计算,得到语料混淆结构矩阵,所述第三计算公式为:
,/>
其中,表示语料混淆结构矩阵,/>表示相邻形近语料信息或邻近音语料信息的第/>卷积层第/>行的语料信息,且/>为正整数,/>表示信息标记符,且/>,/>表示相邻形近语料信息或邻近音语料信息的第/>卷积层第/>个的语料信息的权重,/>表示要学习的权重矩阵,/>表示控制图注意力权重的超参数;采用所述预置的图神经网络生成所述语料混淆结构矩阵的混淆语料结构图谱。
可选的,在本发明第二方面的第六种实现方式中,所述更改模块具体用于:获取待测文本语料,利用预置的向量提取器提取所述待测文本语料中的字符向量;计算所述混淆语料结构图谱的语料混淆结构矩阵与所述字符向量之间的基础相似概率;选择所述基础相似概率的数值最大的目标相似概率,将所述目标相似概率对应的混淆文本语料作为更改文本语料,将所述待测文本语料替换为所述更改文本语料,得到目标文本语料,所述混淆文本语料为所述混淆语料结构图谱中的语料。
本发明第三方面提供了一种基于图神经网络的文本纠错设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于图神经网络的文本纠错设备执行上述的基于图神经网络的文本纠错方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的基于图神经网络的文本纠错方法。
本发明提供的技术方案中,获取医疗业务语料,根据所述医疗业务语料以及预置的字典建立形近混淆语料集合与近音混淆语料集合;基于预置的图神经网络建立所述形近混淆语料集合的形近混淆结构图谱以及所述近音混淆语料集合的近音混淆结构图谱;对所述形近混淆结构图谱以及所述近音混淆结构图谱依次进行图卷积操作与图注意力计算,得到混淆语料结构图谱;获取待测文本语料,利用预置的向量提取器提取所述待测文本语料的字符向量,计算所述字符向量与所述混淆语料结构图谱之间的基础相似概率,根据所述基础相似概率对所述待测文本语料进行更改处理,得到目标文本语料。本发明实施例中,通过预置的图神经网络生成医疗业务语料的混淆语料结构图谱,服务器在进行待测文本语料的文本纠错时,直接计算混淆语料结构图谱对应的语料混淆结构矩阵之间的基础相似概率,通过基础相似概率的数值确定纠错的目标文本语料,本方案可应用于智慧医疗领域中,提高了待测文本语料的文本纠错效率,从而推动智慧城市的建设。
附图说明
图1为本发明实施例中基于图神经网络的文本纠错方法的一个实施例示意图;
图2为本发明实施例中基于图神经网络的文本纠错方法的另一个实施例示意图;
图3为本发明实施例中基于图神经网络的文本纠错装置的一个实施例示意图;
图4为本发明实施例中基于图神经网络的文本纠错装置的另一个实施例示意图;
图5为本发明实施例中基于图神经网络的文本纠错设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种基于图神经网络的文本纠错方法、装置、设备及存储介质,通过预置的图神经网络生成医疗业务语料的混淆语料结构图谱,服务器在进行待测文本语料的文本纠错时,直接计算混淆语料结构图谱对应的语料混淆结构矩阵之间的基础相似概率,通过基础相似概率的数值确定纠错的目标文本语料,本方案可应用于智慧医疗领域中,提高了待测文本语料的文本纠错效率,从而推动智慧城市的建设。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中基于图神经网络的文本纠错方法的一个实施例包括:
101、获取医疗业务语料,根据医疗业务语料以及预置的字典建立形近混淆语料集合与近音混淆语料集合;
可以理解的是,本发明的执行主体可以为基于图神经网络的文本纠错装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
首先服务器需要收集大量的医疗业务语料,这里的医疗业务语料指的是医疗场景中常用的业务词汇,如:各疾病名称、各疾病解决方案术语等,医疗业务语料的收集令中文纠错后的文本更加贴近实际情况,增强场景的识别度。根据医疗业务语料建立形近混淆语料集合与近音混淆语料集合,其中,形近混淆语料集合用于指示与医疗业务语料的字符形状相近的语料集合,如:医疗业务语料为:双目,其形近混淆语料为:双日;近音混淆语料集合用于指示与医疗业务语料的字符音标易产生混淆音标的语料集合,如:医疗业务语料为:处理,其近音混淆语料为:助理。
需要说明的是,形近混淆语料集合与近音混淆语料集合均是基于预置的字典建立的,预置的字典为标准的字词结合的典籍,其记录了大量的字与词语语料。
102、基于预置的图神经网络建立形近混淆语料集合的形近混淆结构图谱以及近音混淆语料集合的近音混淆结构图谱;
服务器在得到形近混淆语料集合与近音混淆语料集合后,通过预置的图神经网络建立形近混淆结构图谱与近音混淆结构图谱,这里预置的图神经网络(graph neuralnetworks,GNN)是一种直接作用于图结构上的神经网络,其中,图是由顶点和边两部分组成的一种数据结构,如:图G可以通过节点集合V和边E进行描述,公式为,根据节点之间是否存在方向依赖关系确定边,边可以是有向的也可以是无向的,在本申请中图G中的节点即为医疗业务语料以及预置的字典中的语料,连接节点的边即为医疗业务语料以及预置的字典中的语料之间的关系,可以为形近混淆语料关系或近音语料关系。此外,若两个节点之间没有边,则说明两个节点对应的语料之间不存在上述关系。
103、对形近混淆结构图谱以及近音混淆结构图谱依次进行图卷积操作与图注意力计算,得到混淆语料结构图谱;
服务器通过步骤102可以得到医疗业务语料的形近混淆结构图谱以及近音混淆结构图谱,并不能一次观测出医疗业务语料是否同时存在形近混淆语料即近音混淆语料,因此服务器需要利用图卷积操作以及图注意力计算混淆语料结构图谱,混淆语料结构图谱即为形近混淆结构图谱与近音混淆结构图谱的结合,通过不同卷积层的信息分配以及不同权重的分配计算得到混淆语料结构图谱。
104、获取待测文本语料,利用预置的向量提取器提取待测文本语料的字符向量,计算字符向量与混淆语料结构图谱之间的基础相似概率,根据基础相似概率对待测文本语料进行更改处理,得到目标文本语料。
服务器通过计算得到混淆语料结构图谱后,即可以进行文本语料的纠正,首先服务器获取待检测文本语料,利用预置的向量提取器在待测文本语料中提取语料的字符向量,然后服务器计算字符向量与混淆语料结构图谱中的语料混淆结构矩阵之间的基础相似概率,根据基础相似概率的数值大小对待测文本语料进行更改处理,得到目标文本语料。
本发明实施例中,通过预置的图神经网络生成医疗业务语料的混淆语料结构图谱,服务器在进行待测文本语料的文本纠错时,直接计算混淆语料结构图谱对应的语料混淆结构矩阵之间的基础相似概率,通过基础相似概率的数值确定纠错的目标文本语料,本方案可应用于智慧医疗领域中,提高了待测文本语料的文本纠错效率,从而推动智慧城市的建设。
请参阅图2,本发明实施例中基于图神经网络的文本纠错方法的另一个实施例包括:
201、获取医疗业务语料,根据医疗业务语料以及预置的字典建立形近混淆语料集合与近音混淆语料集合;
具体的,服务器首先获取医疗业务语料,利用预置的相似度函数计算医疗业务语料与预置的字典中的标准语料之间的基础字形相似度;其次服务器筛选出基础字形相似度大于相似阈值的目标字形相似度,将目标字形相似度对应的标准语料作为医疗业务语料的形近混淆语料,将医疗业务语料与形近混淆语料组合为形近混淆组合,通过形近混淆组合生成形近混淆语料集合;然后服务器利用预置的模糊匹配算法将医疗业务语料转化为语料音标,筛选出语料音标中的目标音标,目标音标包括具有易混淆的韵母和/或声母;最后服务器将目标音标转化为近音音标,并在预置的字典中查询标准音标与近音音标相同的标准语料,将标准音标与近音音标相同的标准语料作为医疗业务语料的近音混淆语料,将医疗业务语料与近音混淆语料组合为近音混淆组合,通过近音混淆组合生成近音混淆语料集合。
需要说明的是,这里的医疗业务语料为医疗场景下常用的词或短语,预置的字典为记录大量字词与短语的标准词语库,预置的字典中的标准语料包括但不限于医疗业务语料,同时,医疗业务语料的数量与预置的字典中标准语料的数量至少为1000个,在本申请中并不对医疗业务语料的数量与预置的字典中标准语料的数量进行限定,可以根据实际情况对两者的数量进行设定。
在获取医疗业务语料与预置的字典中标准语料后,服务器可以通过预置的相似度函数计算两者之间的基础字形相似度,进一步说明的是,每个医疗业务语料均可以与标准语料进行基础字形相似度的计算,因此会通过计算得到多个基础字形相似度,在多个基础字形相似度中筛选出基础字形相似度的数值大于相似阈值的目标字形相似度,将目标字形相似度对应的标准语料作为医疗业务语料的形近混淆语料。例如:医疗业务语料为:双目,标准语料分别为:双日,双耳,右耳,左眼,通过预置的相似度函数计算得到基础字形相似度的数值分别为:0.86、0.78、0.46、0.13,设定的相似阈值为0.58,则将0.86与0.78对应的标准语料双日与双耳作为医疗业务语料双目的形近混淆语料。可以理解的是,医疗业务语料可以对应多个形近混淆语料,将医疗业务语料与形近混淆语料进行组合,得到形近混淆组合,将多个形近混淆组合进行整合得到形近混淆语料集合。
服务器利用预置的模糊匹配算法将医疗业务语料转化为语料音标,这里预置的模糊匹配算法是将医疗业务语料转化为与其对应的拼音,然后筛选出语料音标中的目标音标,再具有易混淆音标的目标音标转化为近音音标,这里目标音标包括具有易混淆的韵母和/或声母,举例说明:辅音易混淆:b/p;前后鼻音易混淆:en/eng;平翘舌易混淆:z/zh。然后服务器在预置的字典中查询标准音标与近音音标相同的标准语料,将标准音标与近音音标相同的标准语料作为医疗业务语料的近音混淆语料,如:医疗业务语料为:增生,将其转化为语料音标为:zheng sheng,筛选出的目标音标以及对应的近音音标为:zh—z,sh—s,eng—en,在预置的字典中可以筛选出的近音混淆语料为:正盛、真身、政审。然后服务器将医疗业务语料与近音混淆语料组合,得到近音混淆组合,将多个近音混淆组合进行整合得到近音混淆语料集合。
202、在医疗业务语料中提取第一业务语料与第二业务语料,将第一业务语料与第二业务语料进行组合,得到待检测组合;
在医疗业务语料中提取第一业务语料与第二业务语料,这里的第一业务语料与第二业务语料相当于图结构中的语料节点,将第一业务语料与第二业务语料进行组合,相当于在图结构中将两个语料节点通过边进行连接,因此,待检测组合中包括两个语料节点与一个边。
203、根据待检测组合与形近混淆组合确定待检测组合位置坐标的第一位置元素,通过第一位置元素确定基础形近混淆矩阵;
具体的,服务器首先判断待检测组合是否为形近混淆组合;若待检测组合为形近混淆组合,则服务器获取待检测组合的位置坐标,并将位置坐标对应的第一位置元素标记为第一阈值;若待检测组合不为形近混淆组合,则服务器获取待检测组合的位置坐标,并将位置坐标对应的第一位置元素标记为第二阈值;最后服务器通过待检测组合的位置坐标建立初始形近混淆矩阵,将第一位置元素录入初始形近混淆矩阵中,得到基础形近混淆矩阵。
服务器首先判断两个语料节点上的第一业务语料与第二业务语料构成的待检测组合是否为形近混淆组合,若待检测组合为形近混淆组合,则确定待检测组合的位置坐标所对应的第一位置元素为第一阈值,这里的第一阈值为1;若待检测组合不为形近混淆组合,则确定待检测组合的位置坐标所对应的第一位置元素为第二阈值,这里的第二阈值为0,服务器根据待检测组合的位置坐标建立初始形近混淆矩阵,根据待检测组合的位置坐标与对应的第一位置元素填充初始形近混淆矩阵,得到基础形近混淆矩阵。
举例说明:第一业务语料为一,第二业务语料为亿,由第一业务语料与第二业务语料组合成的待检测组合所对应的位置坐标为(1,2)(2,1),服务器判断待检测组合是否为形近混淆组合,当待检测组合为形近混淆组合时,标记待检测组合的位置坐标对应的第一位置元素为1,当待检测组合不为形近混淆组合时,标记待检测组合的位置坐标对应的第一位置元素为0。通过待检测组合的位置坐标及第一位置元素的数值,可以建立基础形近混淆矩阵。
204、根据待检测组合与近音混淆组合确定待检测组合位置坐标的第二位置元素,通过第二位置元素确定基础近音混淆矩阵;
具体的,服务器首先判断待检测组合是否为近音混淆组合;若待检测组合为近音混淆组合,则服务器获取待检测组合的位置坐标,并将位置坐标对应的位置元素标记为第三阈值;若待检测组合不为近音混淆组合,则服务器获取待检测组合的位置坐标,并将位置坐标对应的位置元素标记为第四阈值;最后服务器通过待检测组合的位置坐标建立初始近音混淆矩阵,将第二位置元素录入初始近音混淆矩阵中,得到基础近音混淆矩阵。
服务器首先判断两个语料节点上的第一业务语料与第二业务语料构成的待检测组合是否为近音混淆组合,若待检测组合为近音混淆组合,则确定待检测组合的位置坐标所对应的第二位置元素为第三阈值,这里的第三阈值为1;若待检测组合不为近音混淆组合,则确定待检测组合的位置坐标所对应的第二位置元素为第四阈值,这里的第四阈值为0,服务器根据待检测组合的位置坐标建立初始近音混淆矩阵,根据待检测组合的位置坐标与对应的第二位置元素填充初始近音混淆矩阵,得到基础近音混淆矩阵。
举例说明:第一业务语料为牛,第二业务语料为刘,由第一业务语料与第二业务语料组合成的待检测组合所对应的位置坐标为(1,2)(2,1),服务器判断待检测组合是否为近音混淆组合,当待检测组合为近音混淆组合时,标记待检测组合的位置坐标对应的第二位置元素为1,当待检测组合不为近音混淆组合时,标记待检测组合的位置坐标对应的第二位置元素为0。通过待检测组合的位置坐标及第二位置元素的数值,可以建立基础近音混淆矩阵。
205、利用预置的图神经网络生成基础形近混淆矩阵的形近混淆结构图谱以及基础近音混淆矩阵的近音混淆结构图谱;
服务器得到基础形近混淆矩阵及基础近音混淆矩阵之后,可以通过预置的图神经网络对基础形近混淆矩阵及基础近音混淆矩阵进行图转换,进而得到形近混淆结构图谱与近音混淆结构图谱。
206、对形近混淆结构图谱以及近音混淆结构图谱依次进行图卷积操作与图注意力计算,得到混淆语料结构图谱;
具体的,服务器首先对形近混淆结构图谱进行图卷积计算,并利用第一计算公式计算相邻形近语料信息,第一计算公式为:,其中,/>表示相邻形近语料信息,/>表示形近混淆结构图谱中的基础形近混淆矩阵,/>表示第/>卷积层的第一超参数,/>表示基础形近混淆矩阵的正则化矩阵,/>表示第/>卷积层的第二超参数;其次服务器对近音混淆结构图谱进行图卷积计算,并利用第二计算公式计算相邻近音语料信息,第二计算公式为:/>,其中,/>表示相邻近音语料信息,/>表示近音混淆结构图谱中的基础近音混淆矩阵,/>表示第/>卷积层的第三超参数,表示基础近音混淆矩阵的正则化矩阵,/>表示第/>卷积层的第四超参数;然后服务器利用第三计算公式对相邻形近语料信息与相邻近音语料信息进行图注意力计算,得到语料混淆结构矩阵,第三计算公式为:
,/>
其中,表示语料混淆结构矩阵,/>表示相邻形近语料信息或邻近音语料信息的第/>卷积层第/>行的语料信息,且/>为正整数,/>表示信息标记符,且/>,/>表示相邻形近语料信息或邻近音语料信息的第/>卷积层第/>个的语料信息的权重,/>表示要学习的权重矩阵,/>表示控制图注意力权重的超参数;最后服务器采用预置的图神经网络生成语料混淆结构矩阵的混淆语料结构图谱。
上述生成形近混淆结构图谱与近音混淆结构图谱后,服务器可以对医疗业务语料分别进行形近混淆语料检测与近音混淆语料检测,因此服务器需要通过计算公式将两个混淆结构图谱相结合,实现可以同时检测医疗业务语料的混淆语料。
首先服务器需要对形近混淆结构图谱与近音混淆结构图谱分别进行图卷积操作,具体为形近混淆结构图谱与形近混淆结构图谱进行卷积计算,进而提取到相邻形近语料信息,近音混淆结构图谱与近音混淆结构图谱进行卷积计算,进而提取到相邻近音语料信息。需要说明的是,在进行图卷积计算时,图结构中存在不同的层级,服务器将相同层级的卷积层进行卷积,得到的是该层级的相邻形近语料信息。此外,因为本申请并不对医疗业务语料的数量进行限定,因此由医疗业务语料与预置的字典中的标准语料构成的形近语料混淆矩阵的行数可能为一个数值很大的正整数,因此为便于计算,服务器可以将基础近音混淆矩阵进行正则化,进而缩小基础近音混淆矩阵的行数。需要说明的是,在进行近音混淆结构图谱的图卷积计算时,与形近混淆结构图谱进行图卷积计算的原理是相同的,故在此并不赘述。
服务器分别计算形近混淆结构图谱与近音混淆结构图谱的图卷积之后,通过对相邻形近语料信息与相邻近音语料信息进行图注意力计算,得到语料混淆结构矩阵,也就是说,将每层卷积层计算得到的相邻混淆语料信息进行累计相加,最终得到语料混淆结构矩阵,服务器再通过预置的图神经网络对语料混淆结构矩阵进行转化,从而得到混淆语料结构图谱。
207、获取待测文本语料,利用预置的向量提取器提取待测文本语料的字符向量,计算字符向量与混淆语料结构图谱之间的基础相似概率,根据基础相似概率对待测文本语料进行更改处理,得到目标文本语料。
具体的,服务器首先获取待测文本语料,利用预置的向量提取器提取待测文本语料中的字符向量;然后服务器计算混淆语料结构图谱的语料混淆结构矩阵与字符向量之间的基础相似概率;最后服务器选择基础相似概率的数值最大的目标相似概率,将目标相似概率对应的混淆文本语料作为更改文本语料,将待测文本语料替换为更改文本语料,得到目标文本语料,混淆文本语料为混淆语料结构图谱中的语料。
服务器获取待测文本语料,这里的待测文本语料指的是医生输入的文字文本或由语音转化后的文字文本,服务器再对待测文本语料进行字符向量的提取,这里服务器是通过预置的向量提取器对待测文本语料进行提取的,预置的向量提取器BERT提取器(bidirectional encoder representation from transformers),BERT提取器可以进一步增加词向量提取器的泛化能力,充分描述字符级、词级、句子级甚至句间关系特征,进而提取到待测文本语料中的字符向量。
服务器通过计算字符向量与混淆结构矩阵之间的基础相似概率,对待测文本语料进行更改,进而得到目标文本语料。服务器是在全连接层中去计算字符向量与混淆结构矩阵之间的基础相似概率,服务器选择基础相似概率的数值最大的目标相似概率,将目标相似概率对应的混淆文本语料作为更改文本语料,其中,混淆文本语料为混淆语料结构图谱中的语料,也就是混淆语料结构图谱中的语料节点,将待测文本语料替换为更改文本语料,得到目标文本语料。
本发明实施例中,通过预置的图神经网络生成医疗业务语料的混淆语料结构图谱,服务器在进行待测文本语料的文本纠错时,直接计算混淆语料结构图谱对应的语料混淆结构矩阵之间的基础相似概率,通过基础相似概率的数值确定纠错的目标文本语料,本方案可应用于智慧医疗领域中,提高了待测文本语料的文本纠错效率,从而推动智慧城市的建设。
上面对本发明实施例中基于图神经网络的文本纠错方法进行了描述,下面对本发明实施例中基于图神经网络的文本纠错装置进行描述,请参阅图3,本发明实施例中基于图神经网络的文本纠错装置一个实施例包括:
获取模块301,用于获取医疗业务语料,根据所述医疗业务语料以及预置的字典建立形近混淆语料集合与近音混淆语料集合;
建立模块302,用于基于预置的图神经网络建立所述形近混淆语料集合的形近混淆结构图谱以及所述近音混淆语料集合的近音混淆结构图谱;
计算模块303,用于对所述形近混淆结构图谱以及所述近音混淆结构图谱依次进行图卷积操作与图注意力计算,得到混淆语料结构图谱;
更改模块304,用于获取待测文本语料,利用预置的向量提取器提取所述待测文本语料的字符向量,计算所述字符向量与所述混淆语料结构图谱之间的基础相似概率,根据所述基础相似概率对所述待测文本语料进行更改处理,得到目标文本语料。
本发明实施例中,通过预置的图神经网络生成医疗业务语料的混淆语料结构图谱,服务器在进行待测文本语料的文本纠错时,直接计算混淆语料结构图谱对应的语料混淆结构矩阵之间的基础相似概率,通过基础相似概率的数值确定纠错的目标文本语料,本方案可应用于智慧医疗领域中,提高了待测文本语料的文本纠错效率,从而推动智慧城市的建设。
请参阅图4,本发明实施例中基于图神经网络的文本纠错装置的另一个实施例包括:
获取模块301,用于获取医疗业务语料,根据所述医疗业务语料以及预置的字典建立形近混淆语料集合与近音混淆语料集合;
建立模块302,用于基于预置的图神经网络建立所述形近混淆语料集合的形近混淆结构图谱以及所述近音混淆语料集合的近音混淆结构图谱;
计算模块303,用于对所述形近混淆结构图谱以及所述近音混淆结构图谱依次进行图卷积操作与图注意力计算,得到混淆语料结构图谱;
更改模块304,用于获取待测文本语料,利用预置的向量提取器提取所述待测文本语料的字符向量,计算所述字符向量与所述混淆语料结构图谱之间的基础相似概率,根据所述基础相似概率对所述待测文本语料进行更改处理,得到目标文本语料。
可选的,获取模块301还可以具体用于:
获取医疗业务语料,利用预置的相似度函数计算所述医疗业务语料与预置的字典中的标准语料之间的基础字形相似度;
筛选出所述基础字形相似度大于相似阈值的目标字形相似度,将所述目标字形相似度对应的标准语料作为所述医疗业务语料的形近混淆语料,将所述医疗业务语料与所述形近混淆语料组合为形近混淆组合,通过所述形近混淆组合生成形近混淆语料集合;
利用预置的模糊匹配算法将所述医疗业务语料转化为语料音标,筛选出所述语料音标中的目标音标,所述目标音标包括具有易混淆的韵母和/或声母;
将目标音标转化为近音音标,并在所述预置的字典中查询标准音标与所述近音音标相同的标准语料,将所述标准音标与所述近音音标相同的标准语料作为所述医疗业务语料的近音混淆语料,将所述医疗业务语料与所述近音混淆语料组合为近音混淆组合,通过所述近音混淆组合生成近音混淆语料集合。
可选的,建立模块302包括:
组合单元3021,用于在医疗业务语料中提取第一业务语料与第二业务语料,将所述第一业务语料与所述第二业务语料进行组合,得到待检测组合;
第一确定单元3022,用于根据所述待检测组合与所述形近混淆组合确定所述待检测组合位置坐标的第一位置元素,通过所述第一位置元素确定基础形近混淆矩阵;
第二确定单元3023,用于根据所述待检测组合与所述近音混淆组合确定所述待检测组合位置坐标的第二位置元素,通过所述第二位置元素确定基础近音混淆矩阵;
生成单元3024,用于利用预置的图神经网络生成所述基础形近混淆矩阵的形近混淆结构图谱以及所述基础近音混淆矩阵的近音混淆结构图谱。
可选的,第一确定单元3022还可以具体用于:
判断所述待检测组合是否为所述形近混淆组合;
若所述待检测组合为所述形近混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第一位置元素标记为第一阈值;
若所述待检测组合不为所述形近混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第一位置元素标记为第二阈值;
通过所述待检测组合的位置坐标建立初始形近混淆矩阵,将所述第一位置元素录入所述初始形近混淆矩阵中,得到基础形近混淆矩阵。
可选的,第二确定单元3023还可以具体用于:
判断所述待检测组合是否为所述近音混淆组合;
若所述待检测组合为所述近音混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第二位置元素标记为第三阈值;
若所述待检测组合不为所述近音混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第二位置元素标记为第四阈值;
通过所述待检测组合的位置坐标建立初始近音混淆矩阵,将所述第二位置元素录入所述初始近音混淆矩阵中,得到基础近音混淆矩阵。
可选的,计算模块303还可以具体用于:
对所述形近混淆结构图谱进行图卷积计算,并利用第一计算公式计算相邻形近语料信息,所述第一计算公式为:,其中,/>表示相邻形近语料信息,/>表示形近混淆结构图谱中的基础形近混淆矩阵,/>表示第/>卷积层的第一超参数,/>表示基础形近混淆矩阵的正则化矩阵,/>表示第/>卷积层的第二超参数;
对所述近音混淆结构图谱进行图卷积计算,并利用第二计算公式计算相邻近音语料信息,所述第二计算公式为:,其中,/>表示相邻近音语料信息,/>表示近音混淆结构图谱中的基础近音混淆矩阵,/>表示第/>卷积层的第三超参数,表示基础近音混淆矩阵的正则化矩阵,/>表示第/>卷积层的第四超参数;
利用第三计算公式对所述相邻形近语料信息与所述相邻近音语料信息进行图注意力计算,得到语料混淆结构矩阵,所述第三计算公式为:
,/>
其中,表示语料混淆结构矩阵,/>表示相邻形近语料信息或邻近音语料信息的第/>卷积层第/>行的语料信息,且/>为正整数,/>表示信息标记符,且/>,/>表示相邻形近语料信息或邻近音语料信息的第/>卷积层第/>个的语料信息的权重,/>表示要学习的权重矩阵,/>表示控制图注意力权重的超参数;
采用所述预置的图神经网络生成所述语料混淆结构矩阵的混淆语料结构图谱。
可选的,更改模块304还可以具体用于:
获取待测文本语料,利用预置的向量提取器提取所述待测文本语料中的字符向量;
计算所述混淆语料结构图谱的语料混淆结构矩阵与所述字符向量之间的基础相似概率;
选择所述基础相似概率的数值最大的目标相似概率,将所述目标相似概率对应的混淆文本语料作为更改文本语料,将所述待测文本语料替换为所述更改文本语料,得到目标文本语料,所述混淆文本语料为所述混淆语料结构图谱中的语料。
本发明实施例中,通过预置的图神经网络生成医疗业务语料的混淆语料结构图谱,服务器在进行待测文本语料的文本纠错时,直接计算混淆语料结构图谱对应的语料混淆结构矩阵之间的基础相似概率,通过基础相似概率的数值确定纠错的目标文本语料,本方案可应用于智慧医疗领域中,提高了待测文本语料的文本纠错效率,从而推动智慧城市的建设。
上面图3和图4从模块化功能实体的角度对本发明实施例中的基于图神经网络的文本纠错装置进行详细描述,下面从硬件处理的角度对本发明实施例中基于图神经网络的文本纠错设备进行详细描述。
图5是本发明实施例提供的一种基于图神经网络的文本纠错设备的结构示意图,该基于图神经网络的文本纠错设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对基于图神经网络的文本纠错设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在基于图神经网络的文本纠错设备500上执行存储介质530中的一系列指令操作。
基于图神经网络的文本纠错设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的基于图神经网络的文本纠错设备结构并不构成对基于图神经网络的文本纠错设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种基于图神经网络的文本纠错设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述基于图神经网络的文本纠错方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述基于图神经网络的文本纠错方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于图神经网络的文本纠错方法,其特征在于,所述基于图神经网络的文本纠错方法包括:
获取医疗业务语料,根据所述医疗业务语料以及预置的字典建立形近混淆语料集合与近音混淆语料集合;
基于预置的图神经网络建立所述形近混淆语料集合的形近混淆结构图谱以及所述近音混淆语料集合的近音混淆结构图谱;
所述基于预置的图神经网络建立所述形近混淆语料集合的形近混淆结构图谱以及所述近音混淆语料集合的近音混淆结构图谱包括:
在医疗业务语料中提取第一业务语料与第二业务语料,将所述第一业务语料与所述第二业务语料进行组合,得到待检测组合;
根据所述待检测组合与所述形近混淆组合确定所述待检测组合位置坐标的第一位置元素,通过所述第一位置元素确定基础形近混淆矩阵;
根据所述待检测组合与所述近音混淆组合确定所述待检测组合位置坐标的第二位置元素,通过所述第二位置元素确定基础近音混淆矩阵;
利用预置的图神经网络生成所述基础形近混淆矩阵的形近混淆结构图谱以及所述基础近音混淆矩阵的近音混淆结构图谱;
对所述形近混淆结构图谱以及所述近音混淆结构图谱依次进行图卷积操作与图注意力计算,得到混淆语料结构图谱;
所述对所述形近混淆结构图谱以及所述近音混淆结构图谱依次进行图卷积操作与图注意力计算,得到混淆语料结构图谱包括:
对所述形近混淆结构图谱进行图卷积计算,并利用第一计算公式计算相邻形近语料信息,所述第一计算公式为:,其中,/>表示相邻形近语料信息,/>表示形近混淆结构图谱中的基础形近混淆矩阵,/>表示第/>卷积层的第一超参数,表示基础形近混淆矩阵的正则化矩阵,/>表示第/>卷积层的第二超参数;
对所述近音混淆结构图谱进行图卷积计算,并利用第二计算公式计算相邻近音语料信息,所述第二计算公式为:,其中,/>表示相邻近音语料信息,/>表示近音混淆结构图谱中的基础近音混淆矩阵,/>表示第/>卷积层的第三超参数,/>表示基础近音混淆矩阵的正则化矩阵,/>表示第/>卷积层的第四超参数;
利用第三计算公式对所述相邻形近语料信息与所述相邻近音语料信息进行图注意力计算,得到语料混淆结构矩阵,所述第三计算公式为:
,/>
其中,表示语料混淆结构矩阵,/>表示相邻形近语料信息或邻近音语料信息的第/>卷积层第/>行的语料信息,且/>为正整数,/>表示信息标记符,且/>,/>表示相邻形近语料信息或邻近音语料信息的第/>卷积层第/>个的语料信息的权重,/>表示要学习的权重矩阵,/>表示控制图注意力权重的超参数;
采用所述预置的图神经网络生成所述语料混淆结构矩阵的混淆语料结构图谱;
获取待测文本语料,利用预置的向量提取器提取所述待测文本语料的字符向量,计算所述字符向量与所述混淆语料结构图谱之间的基础相似概率,根据所述基础相似概率对所述待测文本语料进行更改处理,得到目标文本语料。
2.根据权利要求1所述的基于图神经网络的文本纠错方法,其特征在于,所述获取医疗业务语料,根据所述医疗业务语料以及预置的字典建立形近混淆语料集合与近音混淆语料集合包括:
获取医疗业务语料,利用预置的相似度函数计算所述医疗业务语料与预置的字典中的标准语料之间的基础字形相似度;
筛选出所述基础字形相似度大于相似阈值的目标字形相似度,将所述目标字形相似度对应的标准语料作为所述医疗业务语料的形近混淆语料,将所述医疗业务语料与所述形近混淆语料组合为形近混淆组合,通过所述形近混淆组合生成形近混淆语料集合;
利用预置的模糊匹配算法将所述医疗业务语料转化为语料音标,筛选出所述语料音标中的目标音标,所述目标音标包括具有易混淆的韵母和/或声母;
将目标音标转化为近音音标,并在所述预置的字典中查询标准音标与所述近音音标相同的标准语料,将所述标准音标与所述近音音标相同的标准语料作为所述医疗业务语料的近音混淆语料,将所述医疗业务语料与所述近音混淆语料组合为近音混淆组合,通过所述近音混淆组合生成近音混淆语料集合。
3.根据权利要求1所述的基于图神经网络的文本纠错方法,其特征在于,所述根据所述待检测组合与所述形近混淆组合确定所述待检测组合位置坐标的第一位置元素,通过所述第一位置元素确定基础形近混淆矩阵包括:
判断所述待检测组合是否为所述形近混淆组合;
若所述待检测组合为所述形近混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第一位置元素标记为第一阈值;
若所述待检测组合不为所述形近混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第一位置元素标记为第二阈值;
通过所述待检测组合的位置坐标建立初始形近混淆矩阵,将所述第一位置元素录入所述初始形近混淆矩阵中,得到基础形近混淆矩阵。
4.根据权利要求1所述的基于图神经网络的文本纠错方法,其特征在于,所述根据所述待检测组合与所述近音混淆组合确定所述待检测组合位置坐标的第二位置元素,通过所述第二位置元素确定基础近音混淆矩阵包括:
判断所述待检测组合是否为所述近音混淆组合;
若所述待检测组合为所述近音混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第二位置元素标记为第三阈值;
若所述待检测组合不为所述近音混淆组合,则获取所述待检测组合的位置坐标,并将所述位置坐标对应的第二位置元素标记为第四阈值;
通过所述待检测组合的位置坐标建立初始近音混淆矩阵,将所述第二位置元素录入所述初始近音混淆矩阵中,得到基础近音混淆矩阵。
5.根据权利要求1-4中任一项所述的基于图神经网络的文本纠错方法,其特征在于,所述获取待测文本语料,利用预置的向量提取器提取所述待测文本语料的字符向量,计算所述字符向量与所述混淆语料结构图谱之间的基础相似概率,根据所述基础相似概率对所述待测文本语料进行更改处理,得到目标文本语料包括:
获取待测文本语料,利用预置的向量提取器提取所述待测文本语料中的字符向量;
计算所述混淆语料结构图谱的语料混淆结构矩阵与所述字符向量之间的基础相似概率;
选择所述基础相似概率的数值最大的目标相似概率,将所述目标相似概率对应的混淆文本语料作为更改文本语料,将所述待测文本语料替换为所述更改文本语料,得到目标文本语料,所述混淆文本语料为所述混淆语料结构图谱中的语料。
6.一种基于图神经网络的文本纠错装置,其特征在于,所述基于图神经网络的文本纠错装置包括:
获取模块,用于获取医疗业务语料,根据所述医疗业务语料以及预置的字典建立形近混淆语料集合与近音混淆语料集合;
建立模块,用于基于预置的图神经网络建立所述形近混淆语料集合的形近混淆结构图谱以及所述近音混淆语料集合的近音混淆结构图谱;
所述基于预置的图神经网络建立所述形近混淆语料集合的形近混淆结构图谱以及所述近音混淆语料集合的近音混淆结构图谱包括:
在医疗业务语料中提取第一业务语料与第二业务语料,将所述第一业务语料与所述第二业务语料进行组合,得到待检测组合;
根据所述待检测组合与所述形近混淆组合确定所述待检测组合位置坐标的第一位置元素,通过所述第一位置元素确定基础形近混淆矩阵;
根据所述待检测组合与所述近音混淆组合确定所述待检测组合位置坐标的第二位置元素,通过所述第二位置元素确定基础近音混淆矩阵;
利用预置的图神经网络生成所述基础形近混淆矩阵的形近混淆结构图谱以及所述基础近音混淆矩阵的近音混淆结构图谱;
计算模块,用于对所述形近混淆结构图谱以及所述近音混淆结构图谱依次进行图卷积操作与图注意力计算,得到混淆语料结构图谱;
所述对所述形近混淆结构图谱以及所述近音混淆结构图谱依次进行图卷积操作与图注意力计算,得到混淆语料结构图谱包括:
对所述形近混淆结构图谱进行图卷积计算,并利用第一计算公式计算相邻形近语料信息,所述第一计算公式为:,其中,/>表示相邻形近语料信息,/>表示形近混淆结构图谱中的基础形近混淆矩阵,/>表示第/>卷积层的第一超参数,表示基础形近混淆矩阵的正则化矩阵,/>表示第/>卷积层的第二超参数;
对所述近音混淆结构图谱进行图卷积计算,并利用第二计算公式计算相邻近音语料信息,所述第二计算公式为:,其中,/>表示相邻近音语料信息,表示近音混淆结构图谱中的基础近音混淆矩阵,/>表示第/>卷积层的第三超参数,/>表示基础近音混淆矩阵的正则化矩阵,/>表示第/>卷积层的第四超参数;
利用第三计算公式对所述相邻形近语料信息与所述相邻近音语料信息进行图注意力计算,得到语料混淆结构矩阵,所述第三计算公式为:
,/>
其中,表示语料混淆结构矩阵,/>表示相邻形近语料信息或邻近音语料信息的第/>卷积层第/>行的语料信息,且/>为正整数,/>表示信息标记符,且/>,/>表示相邻形近语料信息或邻近音语料信息的第/>卷积层第/>个的语料信息的权重,/>表示要学习的权重矩阵,/>表示控制图注意力权重的超参数;
采用所述预置的图神经网络生成所述语料混淆结构矩阵的混淆语料结构图谱;
更改模块,用于获取待测文本语料,利用预置的向量提取器提取所述待测文本语料的字符向量,计算所述字符向量与所述混淆语料结构图谱之间的基础相似概率,根据所述基础相似概率对所述待测文本语料进行更改处理,得到目标文本语料。
7.根据权利要求6所述的基于图神经网络的文本纠错装置,其特征在于,所述获取模块具体用于:
获取医疗业务语料,利用预置的相似度函数计算所述医疗业务语料与预置的字典中的标准语料之间的基础字形相似度;
筛选出所述基础字形相似度大于相似阈值的目标字形相似度,将所述目标字形相似度对应的标准语料作为所述医疗业务语料的形近混淆语料,将所述医疗业务语料与所述形近混淆语料组合为形近混淆组合,通过所述形近混淆组合生成形近混淆语料集合;
利用预置的模糊匹配算法将所述医疗业务语料转化为语料音标,筛选出所述语料音标中的目标音标,所述目标音标包括具有易混淆的韵母和/或声母;
将目标音标转化为近音音标,并在所述预置的字典中查询标准音标与所述近音音标相同的标准语料,将所述标准音标与所述近音音标相同的标准语料作为所述医疗业务语料的近音混淆语料,将所述医疗业务语料与所述近音混淆语料组合为近音混淆组合,通过所述近音混淆组合生成近音混淆语料集合。
8.根据权利要求6或7所述的基于图神经网络的文本纠错装置,其特征在于,所述更改模块具体用于:
获取待测文本语料,利用预置的向量提取器提取所述待测文本语料中的字符向量;
计算所述混淆语料结构图谱的语料混淆结构矩阵与所述字符向量之间的基础相似概率;
选择所述基础相似概率的数值最大的目标相似概率,将所述目标相似概率对应的混淆文本语料作为更改文本语料,将所述待测文本语料替换为所述更改文本语料,得到目标文本语料,所述混淆文本语料为所述混淆语料结构图谱中的语料。
9.一种基于图神经网络的文本纠错设备,其特征在于,所述基于图神经网络的文本纠错设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于图神经网络的文本纠错设备执行如权利要求1-5中任意一项所述的基于图神经网络的文本纠错方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-5中任一项所述基于图神经网络的文本纠错方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010926425.0A CN112016303B (zh) | 2020-09-07 | 2020-09-07 | 基于图神经网络的文本纠错方法、装置、设备及存储介质 |
PCT/CN2020/124828 WO2021139349A1 (zh) | 2020-09-07 | 2020-10-29 | 基于图神经网络的文本纠错方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010926425.0A CN112016303B (zh) | 2020-09-07 | 2020-09-07 | 基于图神经网络的文本纠错方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112016303A CN112016303A (zh) | 2020-12-01 |
CN112016303B true CN112016303B (zh) | 2024-01-19 |
Family
ID=73515410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010926425.0A Active CN112016303B (zh) | 2020-09-07 | 2020-09-07 | 基于图神经网络的文本纠错方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112016303B (zh) |
WO (1) | WO2021139349A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800752B (zh) * | 2020-12-31 | 2023-12-01 | 科大讯飞股份有限公司 | 纠错方法、装置、设备以及存储介质 |
CN113505583B (zh) * | 2021-05-27 | 2023-07-18 | 山东交通学院 | 基于语义决策图神经网络的情感原因子句对提取方法 |
CN114048321B (zh) * | 2021-08-12 | 2024-08-13 | 湖南达德曼宁信息技术有限公司 | 一种多粒度文本纠错数据集生成方法、装置及设备 |
CN113938708B (zh) * | 2021-10-14 | 2024-04-09 | 咪咕文化科技有限公司 | 直播的音频纠错方法、装置、计算设备及存储介质 |
CN114676684B (zh) * | 2022-03-17 | 2024-02-02 | 平安科技(深圳)有限公司 | 一种文本纠错方法、装置、计算机设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062376A (zh) * | 2019-12-18 | 2020-04-24 | 厦门商集网络科技有限责任公司 | 基于光学字符识别与纠错紧耦合处理的文本识别方法 |
CN111241814A (zh) * | 2019-12-31 | 2020-06-05 | 中移(杭州)信息技术有限公司 | 语音识别文本的纠错方法、装置、电子设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102195627B1 (ko) * | 2015-11-17 | 2020-12-28 | 삼성전자주식회사 | 통역 모델 생성 장치 및 방법과, 자동 통역 장치 및 방법 |
CN107357775A (zh) * | 2017-06-05 | 2017-11-17 | 百度在线网络技术(北京)有限公司 | 基于人工智能的循环神经网络的文本纠错方法及装置 |
CN109766538B (zh) * | 2018-11-21 | 2023-12-15 | 北京捷通华声科技股份有限公司 | 一种文本纠错方法、装置、电子设备以及存储介质 |
CN110489760B (zh) * | 2019-09-17 | 2023-09-22 | 达观数据有限公司 | 基于深度神经网络文本自动校对方法及装置 |
-
2020
- 2020-09-07 CN CN202010926425.0A patent/CN112016303B/zh active Active
- 2020-10-29 WO PCT/CN2020/124828 patent/WO2021139349A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062376A (zh) * | 2019-12-18 | 2020-04-24 | 厦门商集网络科技有限责任公司 | 基于光学字符识别与纠错紧耦合处理的文本识别方法 |
CN111241814A (zh) * | 2019-12-31 | 2020-06-05 | 中移(杭州)信息技术有限公司 | 语音识别文本的纠错方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112016303A (zh) | 2020-12-01 |
WO2021139349A1 (zh) | 2021-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112016303B (zh) | 基于图神经网络的文本纠错方法、装置、设备及存储介质 | |
CN109887484B (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
US11010554B2 (en) | Method and device for identifying specific text information | |
JP2009037633A (ja) | 規模調整可能なニューラルネットワーク・ベースの、文書テキストからの言語同定 | |
CN111599340A (zh) | 一种多音字读音预测方法、装置及计算机可读存储介质 | |
CN105404621A (zh) | 一种用于盲人读取汉字的方法及系统 | |
CN109522740B (zh) | 健康数据的去隐私化处理方法及系统 | |
JP5809381B1 (ja) | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム | |
CN113157852A (zh) | 语音处理的方法、系统、电子设备及存储介质 | |
CN115861995B (zh) | 一种视觉问答方法、装置及电子设备和存储介质 | |
CN112633423B (zh) | 文本识别模型的训练方法、文本识别方法、装置及设备 | |
CN114386371A (zh) | 中文拼写纠错方法、系统、设备及存储介质 | |
CN110717021A (zh) | 人工智能面试中获取输入文本和相关装置 | |
CN112669845A (zh) | 语音识别结果的校正方法及装置、电子设备、存储介质 | |
CN113657098A (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN114218945A (zh) | 实体识别方法、装置、服务器及存储介质 | |
CN116702760A (zh) | 一种基于预训练深度学习的地理命名实体纠错方法 | |
CN114021573A (zh) | 一种自然语言处理方法、装置、设备及可读存储介质 | |
CN117709355A (zh) | 一种提高大语言模型训练效果的方法、装置及介质 | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN116842168A (zh) | 跨领域问题处理方法、装置、电子设备及存储介质 | |
CN115565198A (zh) | 基于集成列式卷积的医学文本实体提取方法、系统及设备 | |
CN112417851B (zh) | 文本纠错分词方法、系统及电子设备 | |
JP2022119729A (ja) | 生物医学的エンティティメンションを正規化するための方法、装置及び記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40041479 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |