CN114626336A - 文本标点恢复方法和装置 - Google Patents
文本标点恢复方法和装置 Download PDFInfo
- Publication number
- CN114626336A CN114626336A CN202210271781.2A CN202210271781A CN114626336A CN 114626336 A CN114626336 A CN 114626336A CN 202210271781 A CN202210271781 A CN 202210271781A CN 114626336 A CN114626336 A CN 114626336A
- Authority
- CN
- China
- Prior art keywords
- punctuation
- text
- model
- sequence
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本公开提供一种文本标点恢复的方法,包括:将待处理文本进行预处理,以使得待处理文本符合标点恢复模型的输入数据格式;将经预处理后的待处理文本输入至标点恢复模型,通过标点恢复模型进行神经元标签计算,以获得文本标记和标点符号标记;根据文本标记和标点符号标记,在待处理文本中插入对应的标点符号,得到带标点符号的文本。本公开还提供了一种文本标点恢复的装置、电子设备以及可读存储介质。
Description
技术领域
本公开涉及自然语言处理技术领域,尤其涉及一种文本标点恢复的方法、装置、电子设备及可读存储介质。
背景技术
语音转文本技术和应用场景中,需要通过标点符号对文本进行断句,以增加文本的可读性。现有转写标点恢复方法,预测某字符后是否有标点的过程中忽略了与全局信息的关联。而在实际的标点恢复过程中,不仅需要获取字符的特征表示,更需要结合全局信息进行标点判定。同时,目前表现较好的特征提取器Bert也存在固有的缺陷。由于采用自注意力机制,采用融合Position编码向量的方式,缺乏基于RNN类模型对全局序列信息的表征能力。因此,需要一种文本标点恢复的方法及装置,改善现有技术中文本标点恢复的效果。
发明内容
为了解决上述技术问题中的至少一个,本公开提供了一种文本标点恢复的方法、装置、电子设备及可读存储介质。
根据本公开的一个方面,提供一种文本标点恢复的方法,包括:
将待处理文本进行预处理,以使得所述待处理文本符合标点恢复模型的输入数据格式;
将经预处理后的待处理文本输入至所述标点恢复模型,通过标点恢复模型进行神经元标签计算,以获得文本标记和标点符号标记;
根据所述文本标记和标点符号标记,在所述待处理文本中插入对应的标点符号,得到带标点符号的文本;
其中,待处理文本的预处理,至少包括多待处理文本进行分词,将所述待处理文本转换为分词序列。
根据本公开至少一个实施方式的文本标点恢复的方法,所述标点恢复模型经预先训练获得,所述标点恢复模型训练方法包括:
获取训练数据;
对所述训练数据处理,包括:从所述训练数据中去除标点及噪声,所述噪声包括用于标识网页标签的字符;
将所述训练数据进行分词,并将所述分词序列转换为字符级向量文本序列,所述字符级向量文本序列是通过字符级向量形成的序列,所述字符级向量表示构成各个分词的字符的向量;
对所述分词序列中的词添加词性标识,将所述训练数据转换为具有词性标识的词向量序列;
对经分词后的序列,进行标点符号标注,得到对应的标点标签序列;
对经分词后的序列,进行词性标注,得到对应的词性标签序列;
所述文本序列和标点标签序列、词性标签序列分别一一对应,将所述文本序列、标点标签序列、词性标签序列构成训练集输入神经训练恢复模型进行训练,经反复训练至满足预设的训练指标后,获得所述标点恢复模型。
根据本公开至少一个实施方式的文本标点恢复的方法,所述标点恢复模型的组成包括:
词向量模型,接收待处理文本,将文本转换为字符级向量文本序列,所述字符级向量文本序列是通过字符级向量形成的序列,其中,所述待处理文本在标点恢复模型训练阶段时为训练文本,所述待处理文本在通过标点恢复模型进行标点恢复时为待标识标点的文本;
词性标签嵌入模型,用于对输入至标点恢复模型的词进行词性标识;
双向长短时记忆网络模型,接收结合了词性标识的词向量序列;
分类模型,用于输出各个词/字符后可能需要添加的标点类型对应的概率分布;
最大值输出模型,用于输出分类模型的最大概率值,通过最大概率值可得到对应的标点;
其中,各个所述模型的连接顺序依次为词向量模型、双向长短时记忆网络模型、分类模型、最大值输出模型,所述词性标签嵌入模型与所述词向量模型连接,对待训练数据的分词的词性进行标注,进而将词性标签与词向量模型的输出结果进行结合,以通过词性对标点的语义断句产生影响。
根据本公开至少一个实施方式的文本标点恢复的方法,所述标点恢复模型还包括:
注意力模型,通过所述注意力模型将所述词向量模型输出的表示整个词序列的词向量与所述双向长短时记忆网络输出的当前局部词的词向量进行注意力计算,以学习当前局部词与整个词序列的相关性,包括当前局部词和其他所有词的句意相关性信息,句意信息包括当前局部词在词序列中所属的句子成分、当前局部词在词序列中的位置、当前局部词的词性和当前局部词的上下文文本的语义信息。
根据本公开的又一个方面,提供一种文本标点恢复的装置,包括:
预处理模块,将待处理文本进行预处理,以使得所述待处理文本符合标点恢复模型的输入数据格式;
标记获取模块,将经预处理后的待处理文本输入至所述标点恢复模型,通过标点恢复模型进行神经元标签计算,以获得文本标记和标点符号标记;
标点插入模块,根据所述文本标记和标点符号标记,在所述待处理文本中插入对应的标点符号,得到带标点符号的文本;
其中,待处理文本的预处理,至少包括多待处理文本进行分词,将所述待处理文本转换为分词序列。
根据本公开至少一个实施方式的文本标点恢复的装置,所述标点恢复模型经预先训练获得,所述标点恢复模型训练方法包括:
获取训练数据;
对所述训练数据处理,包括:从所述训练数据中去除标点及噪声,所述噪声包括用于标识网页标签的字符;
将所述训练数据进行分词,并将所述分词序列转换为字符级向量文本序列,所述字符级向量文本序列是通过字符级向量形成的序列,所述字符级向量文本序列是通过字符级向量形成的序列,所述字符级向量表示构成各个分词的字符的向量;
对所述分词序列中的词添加词性标识,将所述训练数据转换为具有词性标识的词向量序列;
对经分词后的序列,进行标点符号标注,得到对应的标点标签序列;
对经分词后的序列,进行词性标注,得到对应的词性标签序列;
所述文本序列和标点标签序列、词性标签序列分别一一对应,将所述文本序列、标点标签序列、词性标签序列构成训练集输入神经训练恢复模型进行训练,经反复训练至满足预设的训练指标后,获得所述标点恢复模型。
根据本公开至少一个实施方式的文本标点恢复的装置,所述标点恢复模型的组成包括:
词向量模型,接收待处理文本,将文本转换为字符级向量文本序列,所述字符级向量文本序列是通过字符级向量形成的序列,其中,所述待处理文本在标点恢复模型训练阶段时为训练文本,所述待处理文本在通过标点恢复模型进行标点恢复时为待标识标点的文本;
词性标签嵌入模型,用于对输入至标点恢复模型的词进行词性标识;
双向长短时记忆网络模型,接收结合了词性标识的词向量序列;
分类模型,用于输出各个词/字符后可能需要添加的标点类型对应的概率分布;
最大值输出模型,用于输出分类模型的最大概率值,通过最大概率值可得到对应的标点;
其中,各个所述模型的连接顺序依次为词向量模型、双向长短时记忆网络模型、分类模型、最大值输出模型,所述词性标签嵌入模型与所述词向量模型连接,对待训练数据的分词的词性进行标注,进而将词性标签与词向量模型的输出结果进行结合,以通过词性对标点的语义断句产生影响。
根据本公开至少一个实施方式的文本标点恢复的装置,所述标点恢复模型还包括:
注意力模型,通过所述注意力模型将所述词向量模型输出的表示整个词序列的词向量与所述双向长短时记忆网络输出的当前局部词的词向量进行注意力计算,以学习当前局部词与整个词序列的相关性,包括当前局部词和其他所有词的句意相关性信息,句意信息包括当前局部词在词序列中所属的句子成分、当前局部词在词序列中的位置、当前局部词的词性和当前局部词的上下文文本的语义信息。
根据本公开的又一个方面,提供一种电子设备,包括:
存储器,所述存储器存储执行指令;
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述任一项所述的方法。
根据本公开的又一个方面,提供一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述任一项所述的方法。
附图说明
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1是根据本公开的一个实施方式的文本标点恢复的方法流程示意图。
图2是根据本公开的一个实施方式的文本标点恢复模型训练方法流程示意图。
图3是根据本公开的一个实施方式的文本标点恢复的装置结构示意图。
图4是根据本公开的一个实施方式的文本标记恢复模型组成结构示意图。
附图标记说明
1000 文本标点恢复的装置
1002 预处理模块
1004 标记获取模块
1006 标点插入模块
1100 总线
1200 处理器
1300 存储器
1400 其他电路。
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外,在附图中,为了清楚和/或描述性的目的,可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时,可以以不同于所描述的顺序来执行具体的工艺顺序。例如,可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外,同样的附图标记表示同样的部件。
当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时,该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件,或者可以存在中间部件。然而,当部件被称作“直接在”另一部件“上“、“直接连接到”或“直接结合到”另一部件时,不存在中间部件。为此,术语“连接”可以指物理连接、电气连接等,并且具有或不具有中间部件。
本文使用的术语是为了描述具体实施例的目的,而不意图是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
图1是根据本公开的一个实施方式的文本标点恢复的方法流程示意图。
如图1所示,文本标点恢复的方法S100,包括以下步骤。
在步骤S102中,将待处理文本进行预处理,以使得待处理文本符合标点恢复模型的输入数据格式。待处理文本的预处理,至少包括多待处理文本进行分词,将待处理文本转换为分词序列。待处理文本包括经语音识别(ASR)输出的文本,由于经语音识别输出的文本不包含标点符号,可读性较差,因此需要对此类文本进行标点符号恢复,以便增加此类文本的可读性和可用性。对待处理文本的预处理,包括去除空格在内的无效文本,还包括对文本进行分词,得到分词序列以便输入标点恢复模型进行文本的标点恢复。
在步骤S104中,将经预处理后的待处理文本输入至标点恢复模型,通过标点恢复模型进行神经元标签计算,以获得文本标记和标点符号标记。标点恢复模型的组成包括以下模型。图4是标点恢复模型的组成结构示意图。如图4所示,标点恢复模型包括以下组成。
词向量模型,接收待处理文本,将文本转换为字符级向量文本序列,字符级向量文本序列是通过字符级向量形成的序列,其中,待处理文本在标点恢复模型训练阶段时为训练文本,待处理文本在通过标点恢复模型进行标点恢复时为待标识标点的文本。具体实施中,词向量模型可以采用Bert模型。Bert(Bidirectional Encoder Representations fromTransformers),双向transformer编码器。
词性标签嵌入模型,用于对输入至标点恢复模型的词进行词性标识。具体实施中,词性标签嵌入模型可以采用Pos-embedding模型。
双向长短时记忆网络模型,接收结合了词性标识的词向量序列。具体实施中,双向长短时记忆网络模型采用Bi-LSTM模型
分类模型,用于输出各个词/字符后可能需要添加的标点类型对应的概率分布。具体实施中,分类模型可以采用Softmax模型。
最大值输出模型,用于输出分类模型的最大概率值,通过最大概率值可得到对应的标点。具体实施中,最大值输出模型可以采用 Argmax模型。
注意力模型,通过注意力模型将词向量模型Bert输出的表示整个词序列的词向量与双向长短时记忆网络输出的当前局部词的词向量进行注意力计算,以学习当前局部词与整个词序列的相关性,包括当前局部词和其他所有词的句意相关性信息,句意信息包括当前局部词在词序列中所属的句子成分、当前局部词在词序列中的位置、当前局部词的词性和当前局部词的上下文文本的语义信息。
其中,上述各个模型的连接顺序依次为词向量模型、双向长短时记忆网络模型、分类模型、最大值输出模型,具体实施中,各个顺序依次为softmax Layer、Argmax,词性标签嵌入模型与词向量模型连接 Pos-embedding,对待训练数据的分词的词性进行标注,进而将词性标签与Bert的输出结果进行结合,以通过词性对标点的语义断句产生影响。
在步骤S106中,根据文本标记和标点符号标记,在待处理文本中插入对应的标点符号,得到带标点符号的文本。
在上述步骤S104中的标点恢复模型经预先训练获得,如图2所示,标点恢复模型训练方法流程示意图,包括以下步骤。
在步骤S202中,获取训练数据。数据来源可以包括从互联网网页的数据。
在步骤S204中,对训练数据处理,包括:从训练数据中去除标点及噪声,噪声包括用于标识网页标签的字符。当训练数据来自互联网网页数据时,可能存在网页标签符号,在预处理时,除了需要去除标点,还要将包括网页标签字符在内的噪声数据去除,以便得到干净的数据进行训练。
在步骤S206中,将训练数据进行分词,并将分词序列转换字符级向量文本序列,所述字符级向量文本序列是通过字符级向量形成的序列,字符级向量表示构成各个分词的字符的向量。具体实施中,通过 BERT模型将分词序列中的各个字符转换为表示字符的向量序列,即 token级的特征向量。
在步骤S208中,对分词序列中的词添加词性标识,将训练数据转换为具有词性标识的词向量序列。具体实施中,通过Pos-embedding 模型实现对词的词性标识。POS(Partof Speech),词性。
在步骤S210中,对经分词后的序列,进行标点符号标注,得到对应的标点标签序列。
在步骤S212中,对经分词后的序列,进行词性标注,得到对应的词性标签序列。
在步骤S214中,文本序列和标点标签序列、词性标签序列分别一一对应,将文本序列、标点标签序列、词性标签序列构成训练集输入神经训练恢复模型进行训练,经反复训练至满足预设的训练指标后,获得标点恢复模型。
图3是根据本公开的一个实施方式的文本标点恢复的装置。如图 3所示,文本标点恢复的装置1000,包括以下模块。
预处理模块1002,将待处理文本进行预处理,以使得待处理文本符合标点恢复模型的输入数据格式。待处理文本的预处理,至少包括多待处理文本进行分词,将待处理文本转换为分词序列。
标记获取模块1004,将经预处理后的待处理文本输入至标点恢复模型,通过标点恢复模型进行神经元标签计算,以获得文本标记和标点符号标记。标点恢复模型经预先训练获得,标点恢复模型训练方法包括:获取训练数据;对训练数据处理,包括:从训练数据中去除标点及噪声,噪声包括用于标识网页标签的字符;将训练数据进行分词,并将分词序列转换为字符级向量文本序列,字符级向量文本序列是通过字符级向量形成的序列;对分词序列中的词添加词性标识,将训练数据转换为具有词性标识的词向量序列;对经分词后的序列,进行标点符号标注,得到对应的标点标签序列;对经分词后的序列,进行词性标注,得到对应的词性标签序列;文本序列和标点标签序列、词性标签序列分别一一对应,将文本序列、标点标签序列、词性标签序列构成训练集输入神经训练恢复模型进行训练,经反复训练至满足预设的训练指标后,获得标点恢复模型。
标点插入模块1006,根据文本标记和标点符号标记,在待处理文本中插入对应的标点符号,得到带标点符号的文本。
在标记获取模块1004中,标点恢复模型的组成包括以下各个模型。
词向量模型,具体实施中可以为Bert模型,接收待处理文本,将文本转换为字符级向量文本序列,字符级向量文本序列是通过字符级向量形成的序列,字符级向量表示构成各个分词的字符的向量,其中,待处理文本在标点恢复模型训练阶段时为训练文本,待处理文本在通过标点恢复模型进行标点恢复时为待标识标点的文本。
词性标签嵌入模型,具体实施中可以为Pos-embedding,用于对输入至标点恢复模型的词进行词性标识。
双向长短时记忆网络模型,具体实施中可以为 Bi-LSTM(Bi-directional LongShort-Term Memory),接收结合了词性标识的词向量序列。
分类模型,具体实施中可以为Softmax模型,用于输出各个词/ 字符后可能需要添加的标点类型对应的概率分布。
最大值输出模型,具体实施中可以为Argmax模型,用于输出分类模型的最大概率值,通过最大概率值可得到对应的标点。
注意力模型,通过注意力模型将词向量模型Bert输出的表示整个词序列的词向量与双向长短时记忆网络输出的当前局部词的词向量进行注意力计算,以学习当前局部词与整个词序列的相关性,包括当前局部词和其他所有词的句意相关性信息,句意信息包括当前局部词在词序列中所属的句子成分、当前局部词在词序列中的位置、当前局部词的词性和当前局部词的上下文文本的语义信息。
其中,各个模型的连接顺序依次为词向量模型、双向长短时记忆网络模型、分类模型、最大值输出模型,具体实施中各个模型依次按照如下顺序连接,Bert、Bi-LSTM、Softmax、Argmax,词性标签嵌入模型与词向量模型Pos-embedding连接,对待训练数据的分词的词性进行标注,进而将词性标签与Bert的输出结果进行结合,以通过词性对标点的语义断句产生影响。
本公开提供的文本标点恢复方法,首先通过Bert特征编码器对所输入训练语料的文本特征进行提取,获取字符(token)的特征向量表示。由于Bert模型缺少位置特征的编码,所以本公开在Bert编码层外设置了Bi-LSTM层来对模型的时序特征进行提取。本公开考虑到文本序列的POS信息,及词性信息对于判定标点位置具有重要左右。例如动词、形容词、副词后一般很少出现语义断点,此外还有不同POS的组合特征都会在判断标点的过程中产生有价值的模式,所以本公开融入了POS信息。整合文本特征及POS特征后,再通过Bi-LSTM进行特征提取,之后接入全连接层进行每个token标签类别的划分。本公开核心解决的问题是标点恢复服务中对于全局信息的重视,从而提升模型效果。所以在接入Softmax层之前,本专利通过Bert层获取的整个序列的语义表示,与Bi-LSTM生成的token向量表示进行Attention 注意力计算,并将注意力结果接入Softmax层进行token标签分类。
根据本公开的又一个方面,提供一种电子设备,包括:
存储器,存储器存储执行指令;
处理器,处理器执行存储器存储的执行指令,使得处理器执行上述任一项的方法。
根据本公开的又一个方面,提供一种可读存储介质,可读存储介质中存储有执行指令,执行指令被处理器执行时用于实现上述任一项的方法。
图3示出了采用处理系统的硬件实现方式的装置示例图。该装置可以包括执行上述流程图中各个或几个步骤的相应模块。因此,可以由相应模块执行上述流程图中的每个步骤或几个步骤,并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。
该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器,这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其他电路1400连接。
总线1100可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component)总线或扩展工业标准体系结构(EISA,Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条连接线表示,但并不表示仅有一根总线或一种类型的总线。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以被实现为软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
就本说明书而言,“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在存储器中。
应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种可读存储介质中,该程序在执行时,包括方法实施方式的步骤之一或其组合。
此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读存储介质中。存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中,对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。
Claims (10)
1.一种文本标点恢复的方法,其特征在于,包括:
将待处理文本进行预处理,以使得所述待处理文本符合标点恢复模型的输入数据格式;
将经预处理后的待处理文本输入至所述标点恢复模型,通过标点恢复模型进行神经元标签计算,以获得文本标记和标点符号标记;以及
根据所述文本标记和标点符号标记,在所述待处理文本中插入对应的标点符号,得到带标点符号的文本;
其中,待处理文本的预处理,至少包括多待处理文本进行分词,将所述待处理文本转换为分词序列。
2.根据权利要求1所述的文本标点恢复的方法,其特征在于,所述标点恢复模型经预先训练获得,所述标点恢复模型训练方法包括:
获取训练数据;
对所述训练数据处理,包括:从所述训练数据中去除标点及噪声,所述噪声包括用于标识网页标签的字符;
将所述训练数据进行分词,并将所述分词序列转换为字符级向量文本序列,所述字符级向量文本序列是通过字符级向量形成的序列,所述字符级向量表示构成各个分词的字符的向量;
对所述分词序列中的词添加词性标识,将所述训练数据转换为具有词性标识的词向量序列;
对经分词后的序列,进行标点符号标注,得到对应的标点标签序列;
对经分词后的序列,进行词性标注,得到对应的词性标签序列;以及
所述字符级向量文本序列和标点标签序列、词性标签序列分别一一对应,将所述字符级向量文本序列、标点标签序列、词性标签序列构成训练集输入神经训练恢复模型进行训练,经反复训练至满足预设的训练指标后,获得所述标点恢复模型。
3.根据权利要求2所述的文本标点恢复的方法,其特征在于,所述标点恢复模型的组成包括:
词向量模型,接收待处理文本,将文本转换为词向量序列,其中,所述待处理文本在标点恢复模型训练阶段时为训练文本,所述待处理文本在通过标点恢复模型进行标点恢复时为待标识标点的文本;
词性标签嵌入模型,用于对输入至标点恢复模型的词进行词性标识;
双向长短时记忆网络模型,接收结合了词性标识的词向量序列;
分类模型,用于输出各个词/字符后可能需要添加的标点类型对应的概率分布;以及
最大值输出模型,用于输出分类模型的最大概率值,通过最大概率值可得到对应的标点;
其中,各个所述模型的连接顺序依次为词向量模型、双向长短时记忆网络模型、分类模型、最大值输出模型,所述词性标签嵌入模型与所述词向量模型连接,对待训练数据的分词的词性进行标注,进而将词性标签与词向量模型的输出结果进行结合,以通过词性对标点的语义断句产生影响。
4.根据权利要求3所述的文本标点恢复的方法,其特征在于,所述标点恢复模型还包括:
注意力模型,通过所述注意力模型将所述词向量模型输出的表示整个词序列的词向量与所述双向长短时记忆网络输出的当前局部词的词向量进行注意力计算,以学习当前局部词与整个词序列的相关性,包括当前局部词和其他所有词的句意相关性信息,句意信息包括当前局部词在词序列中所属的句子成分、当前局部词在词序列中的位置、当前局部词的词性和当前局部词的上下文文本的语义信息。
5.一种文本标点恢复的装置,其特征在于,包括:
预处理模块,将待处理文本进行预处理,以使得所述待处理文本符合标点恢复模型的输入数据格式;
标记获取模块,将经预处理后的待处理文本输入至所述标点恢复模型,通过标点恢复模型进行神经元标签计算,以获得文本标记和标点符号标记;以及
标点插入模块,根据所述文本标记和标点符号标记,在所述待处理文本中插入对应的标点符号,得到带标点符号的文本;
其中,待处理文本的预处理,至少包括多待处理文本进行分词,将所述待处理文本转换为分词序列。
6.根据权利要求5所述的文本标点恢复的装置,其特征在于,所述标点恢复模型经预先训练获得,所述标点恢复模型训练方法包括:
获取训练数据;
对所述训练数据处理,包括:从所述训练数据中去除标点及噪声,所述噪声包括用于标识网页标签的字符;
将所述训练数据进行分词,并将所述分词序列转换为字符级向量文本序列,所述字符级向量文本序列是通过字符级向量形成的序列,所述字符级向量表示构成各个分词的字符的向量;
对所述分词序列中的词添加词性标识,将所述训练数据转换为具有词性标识的词向量序列;
对经分词后的序列,进行标点符号标注,得到对应的标点标签序列;
对经分词后的序列,进行词性标注,得到对应的词性标签序列;以及
所述字符级向量文本序列和标点标签序列、词性标签序列分别一一对应,将所述字符级向量文本序列、标点标签序列、词性标签序列构成训练集输入神经训练恢复模型进行训练,经反复训练至满足预设的训练指标后,获得所述标点恢复模型。
7.根据权利要求5所述的文本标点恢复的装置,其特征在于,所述标点恢复模型的组成包括:
词向量模型,接收待处理文本,将文本转换为词向量序列,其中,所述待处理文本在标点恢复模型训练阶段时为训练文本,所述待处理文本在通过标点恢复模型进行标点恢复时为待标识标点的文本;
词性标签嵌入模型,用于对输入至标点恢复模型的词进行词性标识;
双向长短时记忆网络模型,接收结合了词性标识的词向量序列;
分类模型,用于输出各个词/字符后可能需要添加的标点类型对应的概率分布;以及
最大值输出模型,用于输出分类模型的最大概率值,通过最大概率值可得到对应的标点;
其中,各个所述模型的连接顺序依次为词向量模型、双向长短时记忆网络模型、分类模型、最大值输出模型,所述词性标签嵌入模型与所述词向量模型连接,对待训练数据的分词的词性进行标注,进而将词性标签与词向量模型的输出结果进行结合,以通过词性对标点的语义断句产生影响。
8.根据权利要求7所述的文本标点恢复的装置,其特征在于,所述标点恢复模型还包括:
注意力模型,通过所述注意力模型将所述词向量模型输出的表示整个词序列的词向量与所述双向长短时记忆网络输出的当前局部词的词向量进行注意力计算,以学习当前局部词与整个词序列的相关性,包括当前局部词和其他所有词的句意相关性信息,句意信息包括当前局部词在词序列中所属的句子成分、当前局部词在词序列中的位置、当前局部词的词性和当前局部词的上下文文本的语义信息。
9.一种电子设备,其特征在于,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行如权利要求1至4中任一项所述的方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如权利要求1至4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210271781.2A CN114626336A (zh) | 2022-03-18 | 2022-03-18 | 文本标点恢复方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210271781.2A CN114626336A (zh) | 2022-03-18 | 2022-03-18 | 文本标点恢复方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114626336A true CN114626336A (zh) | 2022-06-14 |
Family
ID=81902556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210271781.2A Pending CN114626336A (zh) | 2022-03-18 | 2022-03-18 | 文本标点恢复方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114626336A (zh) |
-
2022
- 2022-03-18 CN CN202210271781.2A patent/CN114626336A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188202B (zh) | 语义关系识别模型的训练方法、装置及终端 | |
CN109697291B (zh) | 文本的语义段落识别方法和装置 | |
CN110287480B (zh) | 一种命名实体识别方法、装置、存储介质及终端设备 | |
CN112507704B (zh) | 多意图识别方法、装置、设备及存储介质 | |
CN112784578A (zh) | 法律要素提取方法、装置和电子设备 | |
CN111858843B (zh) | 一种文本分类方法及装置 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN113064964A (zh) | 文本分类方法、模型训练方法、装置、设备以及存储介质 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN116257406A (zh) | 用于智慧城市的网关数据管理方法及其系统 | |
CN112668333A (zh) | 命名实体的识别方法和设备、以及计算机可读存储介质 | |
CN111639185B (zh) | 关系信息抽取方法、装置、电子设备和可读存储介质 | |
CN107273883A (zh) | 决策树模型训练方法、确定ocr结果中数据属性方法及装置 | |
CN114218945A (zh) | 实体识别方法、装置、服务器及存储介质 | |
CN111814482A (zh) | 文本关键数据的提取方法、系统和计算机设备 | |
CN114218940B (zh) | 文本信息处理、模型训练方法、装置、设备及存储介质 | |
CN115374786A (zh) | 实体和关系联合抽取方法及装置、存储介质和终端 | |
CN113204956B (zh) | 多模型训练方法、摘要分段方法、文本分段方法及装置 | |
CN112989043B (zh) | 指代消解方法、装置、电子设备及可读存储介质 | |
CN113449081A (zh) | 文本特征的提取方法、装置、计算机设备及存储介质 | |
CN112464927A (zh) | 一种信息提取方法、装置及系统 | |
CN114626336A (zh) | 文本标点恢复方法和装置 | |
CN115964484A (zh) | 基于多标签分类模型实现的法律多意图识别方法和装置 | |
CN116304023A (zh) | 一种基于nlp技术的招投标要素抽取方法、系统及存储介质 | |
CN112464644B (zh) | 自动断句模型建立方法及自动断句方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |