CN112380333A - 用于问答系统的基于拼音概率的文本纠错方法 - Google Patents
用于问答系统的基于拼音概率的文本纠错方法 Download PDFInfo
- Publication number
- CN112380333A CN112380333A CN202011406524.2A CN202011406524A CN112380333A CN 112380333 A CN112380333 A CN 112380333A CN 202011406524 A CN202011406524 A CN 202011406524A CN 112380333 A CN112380333 A CN 112380333A
- Authority
- CN
- China
- Prior art keywords
- pinyin
- text
- target
- probability
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000003860 storage Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 36
- 239000011159 matrix material Substances 0.000 claims description 28
- 230000007704 transition Effects 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 230000006870 function Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Document Processing Apparatus (AREA)
Abstract
本公开提供了一种用于问答系统的基于拼音概率的文本纠错方法,包括:获取目标文本语句的多个带音调的拼音序列;获取多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列;以及将目标文本语句以及目标拼音序列组合,作为问答系统的输入。本公开还提供了用于问答系统的基于拼音概率的文本纠错装置、问答系统、电子设备以及可读存储介质。
Description
技术领域
本公开属于自然语言处理技术领域,本公开尤其涉及一种用于问答系统的基于拼音概率的文本纠错方法。
背景技术
文本输入的问答系统通常包括接收输入、问题理解、知识检索、答案生成这四个基本部分。
输入可能是拼音输入或语音输入再转文字的形式。但是,不管是何种输入,都可能存在错误,当错误的输入传入问题理解模块后,就有可能会产生错误的分类和理解,最终使系统输出错误的回答,影响用户的使用体验。
为解决该问题,现有技术中往往会在输入环节采用一些纠错技术。例如对拼音输入的文字或语音转换后的文字通过算法转换成可能正确的文字序列,但在文字输入到问题模块时,未输入文字以外的其他信息,如音调和多音字情况。用户在拼音输入时由于不能输入音调,所以可能会选择正确拼音错误音调的错误文字,也可能选择同音的错误文字,在语音输入时语音输入也可能存在上述错误。
当前输入纠错模块并不能区分字的读音,只能通过该字在训练语料中不同读音时的情况间接理解该字,并在特定上下文中对错误的字纠错,所以纠错效果还存在优化空间。
而且当纠错模块输出错误时,由于问题理解模块没有纠错功能,故很难正确理解含错误文字的输入的含义。
发明内容
为了解决上述技术问题中的至少一个,本公开提供了一种用于问答系统的基于拼音概率的文本纠错方法、用于问答系统的基于拼音概率的文本纠错装置、问答系统、电子设备以及可读存储介质。
根据本公开的一个方面,提供一种用于问答系统的基于拼音概率的文本纠错方法,包括:获取目标文本语句的多个带音调的拼音序列;获取所述多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列;以及将所述目标文本语句以及所述目标拼音序列组合,作为问答系统的输入。
根据本公开的至少一个实施方式的用于问答系统的基于拼音概率的文本纠错方法,获取所述多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列,包括:
使用基于拼音概率的文本纠错模型获取所述多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列,其中,所述基于拼音概率的文本纠错模型通过以下方法建立:
获取文本训练数据,所述文本训练数据包括多个标注拼音的文本语句;
基于所述文本训练数据中的所有文本语句的所有文本词的词频特征,构建第一词典,所述第一词典包括文本词的词表;
基于所述文本训练数据中的所有文本语句的所有文本词的拼音的首字母特征,构建第二词典,所述第二词典包括文本词的拼音表,将所述第一词典与所述第二词典合并,生成组合词典;
构建或获取所有汉字与所有汉字的所有拼音对应的第三词典;以及
基于所述文本训练数据生成拼音转移概率矩阵;
其中,所述文本纠错模型至少包括拼音转移概率矩阵、组合词典以及第三词典。
根据本公开的至少一个实施方式的用于问答系统的基于拼音概率的文本纠错方法,使用基于拼音概率的文本纠错模型获取所述多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列,包括:
使用概率图算法以及所述拼音转移概率矩阵获得所述最大拼音概率路径,作为所述目标文本语句的所述目标拼音序列。
根据本公开的至少一个实施方式的用于问答系统的基于拼音概率的文本纠错方法,将所述目标文本语句以及所述目标拼音序列组合,包括:
使用所述组合词典将拼接后的所述目标文本语句以及所述目标拼音序列转换为数字序列;以及
将数字序列转换为向量。
根据本公开的至少一个实施方式的用于问答系统的基于拼音概率的文本纠错方法,使用所述组合词典将拼接后的所述目标文本语句以及所述目标拼音序列转换为数字序列,将数字序列转换为向量,包括:
对所述目标文本语句进行分词处理,将分词处理后的目标文本语句以及目标拼音序列进行拼接;
使用所述组合词典将拼接后的目标文本语句以及目标拼音序列转换为数字序列;以及将所述数字序列转换为向量。
根据本公开的至少一个实施方式的用于问答系统的基于拼音概率的文本纠错方法,所述拼音转移概率矩阵为一阶马尔科夫转移概率矩阵。
根据本公开的至少一个实施方式的用于问答系统的基于拼音概率的文本纠错方法,基于所述文本训练数据生成拼音转移概率矩阵的过程中,对于所述第三词典中的未在所述文本训练数据中出现的汉字赋予特征数字。
根据本公开的至少一个实施方式的用于问答系统的基于拼音概率的文本纠错方法,对所述文本词的词表设置第一标识符,对所述文本词的拼音表设置第二标识符。
根据本公开的至少一个实施方式的用于问答系统的基于拼音概率的文本纠错方法,所述第一标识符设置在所述文本词的词表的首词位置,所述第二标识符设置在所述文本词的拼音表的首拼音位置。
根据本公开的另一个方面,提供一种用于问答系统的基于拼音概率的文本纠错装置,包括:
拼音序列获取模块,所述拼音序列获取模块获取目标文本语句的多个带音调的拼音序列;
目标拼音序列生成模块,所述目标拼音序列生成模块获取所述多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列;以及
组合模块,所述组合模块将所述目标文本语句以及所述目标拼音序列组合,生成组合序列,作为问答系统的输入。
根据本公开的至少一个实施方式的用于问答系统的基于拼音概率的文本纠错装置,所述拼音序列获取模块获取所述多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列,包括:
使用基于拼音概率的文本纠错模型获取所述多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列,其中,所述基于拼音概率的文本纠错模型通过以下方法建立:
获取文本训练数据,所述文本训练数据包括多个标注拼音的文本语句;
基于所述文本训练数据中的所有文本语句的所有文本词的词频特征,构建第一词典,所述第一词典包括文本词的词表;
基于所述文本训练数据中的所有文本语句的所有文本词的拼音的首字母特征,构建第二词典,所述第二词典包括文本词的拼音表,将所述第一词典与所述第二词典合并,生成组合词典;
构建或获取所有汉字与所有汉字的所有拼音对应的第三词典;以及
基于所述文本训练数据生成拼音转移概率矩阵;
其中,所述文本纠错模型至少包括拼音转移概率矩阵、组合词典以及第三词典。
根据本公开的至少一个实施方式的用于问答系统的基于拼音概率的文本纠错装置,所述目标拼音序列生成模块使用基于拼音概率的文本纠错模型获取所述多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列,包括:
使用概率图算法以及所述拼音转移概率矩阵获得所述最大拼音概率路径,作为所述目标文本语句的所述目标拼音序列。
根据本公开的至少一个实施方式的用于问答系统的基于拼音概率的文本纠错装置,所述组合模块将所述目标文本语句以及所述目标拼音序列组合,生成组合序列,包括:
使用所述组合词典将拼接后的所述目标文本语句以及所述目标拼音序列转换为数字序列;以及
将数字序列转换为向量化组合序列。
根据本公开的至少一个实施方式的用于问答系统的基于拼音概率的文本纠错装置,使用所述组合词典将拼接后的所述目标文本语句以及所述目标拼音序列转换为数字序列;以及将数字序列转换为向量化组合序列,包括:
对所述目标文本语句进行分词处理,将分词处理后的目标文本语句以及目标拼音序列进行拼接;
使用所述组合词典将拼接后的目标文本语句以及目标拼音序列转换为数字序列;以及将所述数字序列转换为向量化组合序列。
根据本公开的至少一个实施方式的用于问答系统的基于拼音概率的文本纠错装置,所述拼音转移概率矩阵为一阶马尔科夫转移概率矩阵。
根据本公开的至少一个实施方式的用于问答系统的基于拼音概率的文本纠错装置,基于所述文本训练数据生成拼音转移概率矩阵的过程中,对于所述第三词典中的未在所述文本训练数据中出现的汉字赋予特征数字。
根据本公开的至少一个实施方式的用于问答系统的基于拼音概率的文本纠错装置,对所述文本词的词表设置第一标识符,对所述文本词的拼音表设置第二标识符。
根据本公开的至少一个实施方式的用于问答系统的基于拼音概率的文本纠错装置,所述第一标识符设置在所述文本词的词表的首词位置,所述第二标识符设置在所述文本词的拼音表的首拼音位置。
根据本公开的又一个方面,提供一种问答系统,包括:
上述任一项所述的文本纠错装置,所述文本纠错装置对输入的目标文本语句进行处理;
问题理解模块,所述问题理解模块对所述文本纠错装置输出的组合序列进行语义槽识别及意图识别,获取所述目标文本语句的问题类型;
知识检索模块,所述知识检索模块至少基于所述目标文本语句的问题类型对所述目标文本语句的问题答案进行检索;以及
答案生成模块,所述答案生成模块至少基于所述知识检索模块的检索结果生成所述目标文本语句的问题答案。
根据本公开的至少一个实施方式的问答系统,所述问题理解模块通过以下方法进行训练:
获取文本纠错装置输出的所述组合序列的问题类型真实标签,以及获取经所述问题理解模块预测的所述组合序列的问题类型预测标签;
计算所述问题类型预测标签与所述问题类型真实标签的交叉熵损失函数,获取所述问题理解模块的模型损失;以及
使用所述交叉熵损失函数对所述问题理解模块的模型参数求导以及使用反向传播算法,对所述问题理解模块的模型参数进行修正,直至所述交叉熵损失函数的函数值收敛,获得所述问题理解模块的模型参数,训练结束。
根据本公开的又一个方面,提供一种电子设备,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述任一项所述的方法。
根据本公开的再一个方面,提供一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述任一项所述的方法。
附图说明
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1是本公开的一个实施方式的用于问答系统的基于拼音概率的文本纠错方法的流程示意图。
图2是本公开的又一个实施方式的用于问答系统的基于拼音概率的文本纠错方法的流程示意图。
图3是本公开的一个实施方式的基于拼音概率的文本纠错模型的建立方法。
图4是本公开的又一个实施方式的用于问答系统的基于拼音概率的文本纠错方法的流程示意图。
图5是本公开的一个实施方式的具有本公开的文本纠错装置的电子设备的结构示意图
图6是本公开的又一个实施方式的具有本公开的文本纠错装置的电子设备的结构示意图。
附图标记说明
1000电子设备
1002拼音序列获取模块
1004目标拼音序列生成模块
1006组合模块
1008文本纠错模型
1100总线
1200处理器
1300存储器
1400其他电路。
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外,在附图中,为了清楚和/或描述性的目的,可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时,可以以不同于所描述的顺序来执行具体的工艺顺序。例如,可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外,同样的附图标记表示同样的部件。
当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时,该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件,或者可以存在中间部件。然而,当部件被称作“直接在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时,不存在中间部件。为此,术语“连接”可以指物理连接、电气连接等,并且具有或不具有中间部件。
为了描述性目的,本公开可使用诸如“在……之下”、“在……下方”、“在……下”、“下”、“在……上方”、“上”、“在……之上”、“较高的”和“侧(例如,如在“侧壁”中)”等的空间相对术语,从而来描述如附图中示出的一个部件与另一(其它)部件的关系。除了附图中描绘的方位之外,空间相对术语还意图包含设备在使用、操作和/或制造中的不同方位。例如,如果附图中的设备被翻转,则被描述为“在”其它部件或特征“下方”或“之下”的部件将随后被定位为“在”所述其它部件或特征“上方”。因此,示例性术语“在……下方”可以包含“上方”和“下方”两种方位。此外,设备可被另外定位(例如,旋转90度或者在其它方位处),如此,相应地解释这里使用的空间相对描述语。
这里使用的术语是为了描述具体实施例的目的,而不意图是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
图1是本公开的一个实施方式的用于问答系统的基于拼音概率的文本纠错方法的流程示意图。
如图1所示,用于问答系统的基于拼音概率的文本纠错方法100,包括:
102、获取目标文本语句的多个带音调的拼音序列;
104、获取多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列;以及
106、将目标文本语句以及目标拼音序列组合,作为问答系统的输入。
本公开的文本纠错方法将输入文字(即目标文本语句)先做带音调的拼音转换,再计算所有拼音组合中最大拼音概率路径,再将文字的带音调拼音特征(即目标拼音序列)向量化和文字向量一起作为输入传入问答系统的问题理解模块进行问题的分类、理解。
图2是本公开的又一个实施方式的用于问答系统的基于拼音概率的文本纠错方法的流程示意图。
如图2所示,用于问答系统的基于拼音概率的文本纠错方法100,包括:
102、获取目标文本语句的多个带音调的拼音序列;
104、使用基于拼音概率的文本纠错模型获取多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列;以及
106、将目标文本语句以及目标拼音序列组合,作为问答系统的输入。
根据本公开的优选实施方式,如图3所示,上述基于拼音概率的文本纠错模型通过以下方法建立:
201、获取文本训练数据,文本训练数据包括多个标注拼音的文本语句;
202、基于文本训练数据中的所有文本语句的所有文本词的词频特征,构建第一词典,第一词典包括文本词的词表;
203、基于文本训练数据中的所有文本语句的所有文本词的拼音的首字母特征,构建第二词典,第二词典包括文本词的拼音表,将第一词典与第二词典合并,生成组合词典;
204、构建或获取所有汉字与所有汉字的所有拼音对应的第三词典;以及
205、基于文本训练数据生成拼音转移概率矩阵;
其中,文本纠错模型包括拼音转移概率矩阵、组合词典以及第三词典。
上述各个实施方式中,使用基于拼音概率的文本纠错模型获取多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列,包括:
使用概率图算法以及拼音转移概率矩阵获得最大拼音概率路径,作为目标文本语句的目标拼音序列。
图4是本公开的又一个实施方式的用于问答系统的基于拼音概率的文本纠错方法的流程示意图。
如图4所示,用于问答系统的基于拼音概率的文本纠错方法100,包括:
102、获取目标文本语句的多个带音调的拼音序列;
104、使用基于拼音概率的文本纠错模型获取多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列;以及
106、将目标文本语句以及目标拼音序列转换为数字序列,将数字序列转换为向量,作为问答系统的输入。
上述各个实施方式中,将目标文本语句以及目标拼音序列转换为数字序列,将数字序列转换为向量,包括:
对目标文本语句进行分词处理,将分词处理后的目标文本语句以及目标拼音序列进行拼接;
使用组合词典将拼接后的目标文本语句以及目标拼音序列转换为数字序列;以及将数字序列转换为向量。
上述各个实施方式中,优选地,拼音转移概率矩阵为一阶马尔科夫转移概率矩阵。
上述各个实施方式中,优选地,基于文本训练数据生成拼音转移概率矩阵的过程中,对于第三词典中的未在文本训练数据中出现的汉字赋予特征数字。
上述各个实施方式中,拼音转移概率矩阵表示从某一字音到另一个字音的可能概率。并且,当某一个词语(第三词典中的词语)在训练数据中未出现时,如果将其设置为0,则会影响到后续的概率图算法的准确性,为此,在生成马尔科夫转移概率矩阵时,对训练数据中未出现的词赋予一个较小的数字,例如0.005/2000。
上述各个实施方式中,对文本词的词表设置第一标识符,对文本词的拼音表设置第二标识符。
优选地,第一标识符设置在文本词的词表的首词位置,第二标识符设置在文本词的拼音表的首拼音位置。
上述各个实施方式中,拼音序列获取模块1002获取目标文本语句的多个带音调的拼音序列,可以基于上述的第三词典获得,即通过第三词典获得所有可能的带音调的拼音序列。
本公开中,问答系统的输入可以为文字输入(即输入的是目标文本语句),也可以为语音输入。
当问答系统的输入为语音输入时,将该语音输入转换为对应的文字,获得“目标文本语句”,并根据第三词典输出该语音输入的所有可能的带音调的拼音序列。
根据本公开的一个实施方式的用于问答系统的基于拼音概率的文本纠错装置,包括:
拼音序列获取模块1002,拼音序列获取模块1002获取目标文本语句的多个带音调的拼音序列;
目标拼音序列生成模块1004,目标拼音序列生成模块1004获取多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列;以及
组合模块1006,组合模块1006将目标文本语句以及目标拼音序列组合,生成组合序列,作为问答系统的输入。
根据本公开的又一个实施方式的用于问答系统的基于拼音概率的文本纠错装置,拼音序列获取模块1002获取多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列,包括:
使用基于拼音概率的文本纠错模型1008获取多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列,其中,基于拼音概率的文本纠错模型1008通过以下方法建立:
获取文本训练数据,文本训练数据包括多个标注拼音的文本语句;
基于文本训练数据中的所有文本语句的所有文本词的词频特征,构建第一词典,第一词典包括文本词的词表;
基于文本训练数据中的所有文本语句的所有文本词的拼音的首字母特征,构建第二词典,第二词典包括文本词的拼音表,将第一词典和第二词典进行合并,生成组合词典;
构建或获取所有汉字与所有汉字的所有拼音对应的第三词典;以及
基于文本训练数据生成拼音转移概率矩阵;
其中,文本纠错模型1008包括拼音转移概率矩阵、组合词典以及第三词典。
上述各个实施方式中,优选地,用于问答系统的基于拼音概率的文本纠错装置的目标拼音序列生成模块1004使用基于拼音概率的文本纠错模型1008获取多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列,包括:
使用概率图算法以及拼音转移概率矩阵获得最大拼音概率路径,作为目标文本语句的目标拼音序列。
上述各个实施方式中,优选地,用于问答系统的基于拼音概率的文本纠错装置的组合模块1006将目标文本语句以及目标拼音序列组合,生成组合序列,包括:
使用组合词典将拼接后的目标文本语句以及目标拼音序列转换为数字序列;以及将数字序列转换为向量化组合序列。
上述各个实施方式中,优选地,用于问答系统的基于拼音概率的文本纠错装置的组合模块1006使用组合词典将拼接后的目标文本语句以及目标拼音序列转换为数字序列,以及将数字序列转换为向量化组合序列包括:
对目标文本语句进行分词处理,将分词处理后的目标文本语句以及目标拼音序列进行拼接;
使用组合词典将拼接后的目标文本语句以及目标拼音序列转换为数字序列;以及将数字序列转换为向量化组合序列。
根据本公开的一个实施方式的问答系统,包括:
上述任一个实施方式的文本纠错装置,文本纠错装置对输入的目标文本语句进行处理;
问题理解模块,问题理解模块对文本纠错装置输出的组合序列进行语义槽识别及意图识别,获取目标文本语句的问题类型;
知识检索模块,知识检索模块至少基于目标文本语句的问题类型对目标文本语句的问题答案进行检索;以及
答案生成模块,答案生成模块至少基于知识检索模块的检索结果生成目标文本语句的问题答案。
优选地,问题理解模块通过以下方法进行训练:
获取文本纠错装置输出的组合序列的问题类型真实标签,以及获取经问题理解模块预测的组合序列的问题类型预测标签;
计算问题类型预测标签与问题类型真实标签的交叉熵损失函数,获取问题理解模块的模型损失;以及
使用交叉熵损失函数对问题理解模块的模型参数求导以及使用反向传播算法,对问题理解模块的模型参数进行修正,直至交叉熵损失函数的函数值收敛,获得问题理解模块的模型参数,训练结束。
图5示出了具有本公开的文本纠错装置的电子设备1000的结构示意图,文本纠错装置包括拼音序列获取模块1002、目标拼音序列生成模块1004以及组合模块1006。
图6示出了具有本公开的文本纠错装置的电子设备1000的结构示意图,文本纠错装置包括拼音序列获取模块1002、目标拼音序列生成模块1004、组合模块1006以及文本纠错模型1008。
电子设备1000还可以包括具有上述文本纠错装置的问答系统,相应地,电子设备1000还可以具有上述问题理解模块、知识检索模块、答案生成模块。
上述各个实施方式的电子设备1000可以包括执行上述方法中各个或几个步骤的相应模块。因此,可以由相应模块执行上述方法中的每个步骤或几个步骤,并且该电子设备1000可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。
该电子设备1000可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器,这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其它电路1400连接。
总线1100可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component)总线或扩展工业标准体系结构(EISA,Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条连接线表示,但并不表示仅有一根总线或一种类型的总线。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以被实现为软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
就本说明书而言,“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在存储器中。
应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,程序可以存储于一种可读存储介质中,该程序在执行时,包括方法实施方式的步骤之一或其组合。
此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读存储介质中。存储介质可以是只读存储器,磁盘或光盘等。
本公开还提供了一种电子设备,包括:存储器,存储器存储执行指令;以及处理器或其他硬件模块,处理器或其他硬件模块执行存储器存储的执行指令,使得处理器或其他硬件模块执行上述的方法。
本公开还提供了一种可读存储介质,可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述的方法。
在本说明书的描述中,参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中,对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。
Claims (10)
1.一种用于问答系统的基于拼音概率的文本纠错方法,其特征在于,包括:
获取目标文本语句的多个带音调的拼音序列;
获取所述多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列;以及
将所述目标文本语句以及所述目标拼音序列组合,作为问答系统的输入。
2.根据权利要求1所述的用于问答系统的基于拼音概率的文本纠错方法,其特征在于,获取所述多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列,包括:
使用基于拼音概率的文本纠错模型获取所述多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列,其中,所述基于拼音概率的文本纠错模型通过以下方法建立:
获取文本训练数据,所述文本训练数据包括多个标注拼音的文本语句;
基于所述文本训练数据中的所有文本语句的所有文本词的词频特征,构建第一词典,所述第一词典包括文本词的词表;
基于所述文本训练数据中的所有文本语句的所有文本词的拼音的首字母特征,构建第二词典,所述第二词典包括文本词的拼音表,将所述第一词典与所述第二词典合并,生成组合词典;
构建或获取所有汉字与所有汉字的所有拼音对应的第三词典;以及
基于所述文本训练数据生成拼音转移概率矩阵;
其中,所述文本纠错模型至少包括拼音转移概率矩阵、组合词典以及第三词典。
3.根据权利要求2所述的用于问答系统的基于拼音概率的文本纠错方法,其特征在于,使用基于拼音概率的文本纠错模型获取所述多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列,包括:
使用概率图算法以及所述拼音转移概率矩阵获得所述最大拼音概率路径,作为所述目标文本语句的所述目标拼音序列。
4.根据权利要求3所述的用于问答系统的基于拼音概率的文本纠错方法,其特征在于,将所述目标文本语句以及所述目标拼音序列组合,包括:
使用所述组合词典将拼接后的所述目标文本语句以及所述目标拼音序列转换为数字序列;以及
将数字序列转换为向量。
5.根据权利要求4所述的用于问答系统的基于拼音概率的文本纠错方法,其特征在于,使用所述组合词典将拼接后的所述目标文本语句以及所述目标拼音序列转换为数字序列,将数字序列转换为向量,包括:
对所述目标文本语句进行分词处理,将分词处理后的目标文本语句以及目标拼音序列进行拼接;
使用所述组合词典将拼接后的目标文本语句以及目标拼音序列转换为数字序列;以及
将所述数字序列转换为向量。
6.根据权利要求2所述的用于问答系统的基于拼音概率的文本纠错方法,其特征在于,所述拼音转移概率矩阵为一阶马尔科夫转移概率矩阵。
7.一种用于问答系统的基于拼音概率的文本纠错装置,其特征在于,包括:
拼音序列获取模块,所述拼音序列获取模块获取目标文本语句的多个带音调的拼音序列;
目标拼音序列生成模块,所述目标拼音序列生成模块获取所述多个带音调的拼音序列中对应最大拼音概率路径的目标拼音序列;以及
组合模块,所述组合模块将所述目标文本语句以及所述目标拼音序列组合,生成组合序列,作为问答系统的输入。
8.一种问答系统,其特征在于,包括:
上述任一项的文本纠错装置,所述文本纠错装置对输入的目标文本语句进行处理;
问题理解模块,所述问题理解模块对所述文本纠错装置输出的组合序列进行语义槽识别及意图识别,获取所述目标文本语句的问题类型;
知识检索模块,所述知识检索模块至少基于所述目标文本语句的问题类型对所述目标文本语句的问题答案进行检索;以及
答案生成模块,所述答案生成模块至少基于所述知识检索模块的检索结果生成所述目标文本语句的问题答案。
9.一种电子设备,其特征在于,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行如权利要求1至8中任一项所述的方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011406524.2A CN112380333B (zh) | 2020-12-04 | 2020-12-04 | 用于问答系统的基于拼音概率的文本纠错方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011406524.2A CN112380333B (zh) | 2020-12-04 | 2020-12-04 | 用于问答系统的基于拼音概率的文本纠错方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112380333A true CN112380333A (zh) | 2021-02-19 |
CN112380333B CN112380333B (zh) | 2024-03-29 |
Family
ID=74590310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011406524.2A Active CN112380333B (zh) | 2020-12-04 | 2020-12-04 | 用于问答系统的基于拼音概率的文本纠错方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112380333B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113360623A (zh) * | 2021-06-25 | 2021-09-07 | 达闼机器人有限公司 | 一种文本匹配方法、电子设备及可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608963A (zh) * | 2017-09-12 | 2018-01-19 | 马上消费金融股份有限公司 | 一种基于互信息的中文纠错方法、装置、设备及存储介质 |
US20180342233A1 (en) * | 2017-05-23 | 2018-11-29 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for correcting speech recognition error based on artificial intelligence, and storage medium |
CN110276077A (zh) * | 2019-06-25 | 2019-09-24 | 上海应用技术大学 | 中文纠错的方法、装置及设备 |
CN110765772A (zh) * | 2019-10-12 | 2020-02-07 | 北京工商大学 | 拼音作为特征的中文语音识别后的文本神经网络纠错模型 |
CN112016310A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、系统、设备及可读存储介质 |
-
2020
- 2020-12-04 CN CN202011406524.2A patent/CN112380333B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180342233A1 (en) * | 2017-05-23 | 2018-11-29 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for correcting speech recognition error based on artificial intelligence, and storage medium |
CN107608963A (zh) * | 2017-09-12 | 2018-01-19 | 马上消费金融股份有限公司 | 一种基于互信息的中文纠错方法、装置、设备及存储介质 |
CN110276077A (zh) * | 2019-06-25 | 2019-09-24 | 上海应用技术大学 | 中文纠错的方法、装置及设备 |
CN110765772A (zh) * | 2019-10-12 | 2020-02-07 | 北京工商大学 | 拼音作为特征的中文语音识别后的文本神经网络纠错模型 |
CN112016310A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、系统、设备及可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113360623A (zh) * | 2021-06-25 | 2021-09-07 | 达闼机器人有限公司 | 一种文本匹配方法、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112380333B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188353B (zh) | 文本纠错方法及装置 | |
CN111767717B (zh) | 印尼语的语法纠错方法、装置、设备及存储介质 | |
CN110210035B (zh) | 序列标注方法、装置及序列标注模型的训练方法 | |
CN111243571B (zh) | 文本的处理方法、装置、设备及计算机可读存储介质 | |
CN112530404A (zh) | 一种语音合成方法、语音合成装置及智能设备 | |
CN107832302B (zh) | 分词处理方法、装置、移动终端及计算机可读存储介质 | |
US20030061030A1 (en) | Natural language processing apparatus, its control method, and program | |
CN112507111A (zh) | 用于生成式自动摘要生成的模型建立方法及摘要生成方法 | |
CN112380333A (zh) | 用于问答系统的基于拼音概率的文本纠错方法 | |
CN114299930A (zh) | 端到端语音识别模型处理方法、语音识别方法及相关装置 | |
US11501077B2 (en) | Semantic processing method, electronic device, and non-transitory computer readable recording medium | |
CN112487813A (zh) | 命名实体识别方法及系统、电子设备及存储介质 | |
CN111353295A (zh) | 序列标注方法、装置、存储介质及计算机设备 | |
CN113806475B (zh) | 信息回复方法、装置、电子设备和存储介质 | |
CN115662399A (zh) | 日语语音模型的训练方法以及交互方法、存储介质、设备 | |
CN114020914A (zh) | 医疗文本分类方法、装置、电子设备及存储介质 | |
CN112530406A (zh) | 一种语音合成方法、语音合成装置及智能设备 | |
CN117933235B (zh) | 问题答案对生成方法、装置、电子设备及存储介质 | |
CN112464644B (zh) | 自动断句模型建立方法及自动断句方法 | |
US20220092467A1 (en) | Control Method and Computer System Using the Same | |
CN116705058B (zh) | 多模语音任务的处理方法、电子设备及可读存储介质 | |
CN115713934B (zh) | 一种语音转文本的纠错方法、装置、设备及介质 | |
CN114398876B (zh) | 一种基于有限状态转换器的文本纠错方法和装置 | |
CN117933235A (zh) | 问题答案对生成方法、装置、电子设备及存储介质 | |
CN112668312A (zh) | 错别字修正方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |