CN112632258A - 文本数据处理方法、装置、计算机设备和存储介质 - Google Patents

文本数据处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112632258A
CN112632258A CN202011615867.XA CN202011615867A CN112632258A CN 112632258 A CN112632258 A CN 112632258A CN 202011615867 A CN202011615867 A CN 202011615867A CN 112632258 A CN112632258 A CN 112632258A
Authority
CN
China
Prior art keywords
processed
splitting
text data
question
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011615867.XA
Other languages
English (en)
Inventor
徐辉鸿
纪海音
邹大千
程卉
王昕�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiping Financial Operation Service Shanghai Co ltd
Taiping Finance Technology Services Shanghai Co ltd
Original Assignee
Taiping Financial Operation Service Shanghai Co ltd
Taiping Finance Technology Services Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiping Financial Operation Service Shanghai Co ltd, Taiping Finance Technology Services Shanghai Co ltd filed Critical Taiping Financial Operation Service Shanghai Co ltd
Priority to CN202011615867.XA priority Critical patent/CN112632258A/zh
Publication of CN112632258A publication Critical patent/CN112632258A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请涉及一种文本数据处理方法、装置、计算机设备和存储介质。所述方法包括:获取待处理文本数据;识别所述待处理文本数据的知识类型;选取与所述知识类型对应的预先训练得到的文本拆分模型;将所述待处理文本数据输入至所述文本拆分模型中进行拆分,得到对应的问答对。采用本方法能够提高处理效率。

Description

文本数据处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种文本数据处理方法、装置、计算机设备和存储介质。
背景技术
随着人工智能技术的发展,知识库系统与智能应答机器人在企业的应用越来越多,在统一知识管理的模式下,知识库负责知识的积累,其中绝大部分是非结构化的文档,适合人来阅读,而智能应答机器人则采用“常见问题问答对”的知识格式,这就要求知识库向智能应答机器人输送问答对格式的知识。
传统地,问答对拆分方法是将文档通过人工拆分为问答对,导致企业人力成本大大增加。
发明内容
基于此,有必要针对上述技术问题,提供一种能够降低人力成本,提高拆分效率的文本数据处理方法、装置、计算机设备和存储介质。
一种文本数据处理方法,所述方法包括:
获取待处理文本数据;
识别所述待处理文本数据的知识类型;
选取与所述知识类型对应的预先训练得到的文本拆分模型;
将所述待处理文本数据输入至所述文本拆分模型中进行拆分,得到对应的问答对。
在其中一个实施例中,所述将所述待处理文本数据输入至所述文本拆分模型中进行拆分,得到对应的问答对,包括:
对所述待处理文本进行格式进行识别,并根据识别得到的格式对所述待处理文本数据进行格式拆分;
将进行格式拆分后的待处理文本数据进行语义分类,并根据语义分类后的待处理文本数据得到问答对。
在其中一个实施例中,所述对所述待处理文本进行格式进行识别,并根据识别得到的格式对所述待处理文本数据进行格式拆分,包括:
将所述待处理文本数据转换为预设类型的文件;
根据所述预设类型的文件中的标签对所述待处理文本数据进行格式拆分得到待处理问题和待处理答案。
在其中一个实施例中,所述将进行格式拆分后的待处理文本数据进行语义分类,并根据语义分类后的待处理文本数据得到问答对,包括:
对拆分后所得到的待处理问题和待处理答案进行向量化;
将向量化后的待处理问题和待处理答案输入至预先训练得到的分类模型中,以将所述待处理问题和待处理答案进行分类得到问答对。
在其中一个实施例中,所述文本拆分模型的训练方式包括:
获取样本数据;
识别所述样本数据中的格式,并进行格式拆分后得到样本问题和样本答案;
对所述样本问题和样本答案进行标注;
将标注后的样本问题和样本答案输入至预先选择的初始模型中,以进行训练得到文本拆分模型。
在其中一个实施例中,所述将标注后的样本问题和样本答案输入至预先选择的初始模型中,以进行训练得到文本拆分模型,包括:
将标注后的样本问题和样本答案进行向量化得到特征向量;
将所述特征向量进行线性映射变换,并将线性映射变换后的特征向量进行标签映射得到对应的训练标签;
根据所述训练标签与所述样本问题和样本答案的标注标签对预先选择的初始模型进行训练,得到文本拆分模型。
在其中一个实施例中,所述将所述待处理文本数据输入至所述文本拆分模型中进行拆分,得到对应的问答对之后,还包括:
接收针对所述问答对的编辑指令,并将编辑后的问答对进行存储。
一种用户问题处理方法,所述用户问题处理方法包括:
接收用户问题;
将所述用户问题与上述任一实施例中所述的文本数据处理方法所生成的问答对进行匹配得到对应的自动答复;
输出匹配得到的所述自动答复。
一种文本数据处理装置,所述装置包括:
文本数据获取模块,用于获取待处理文本数据;
知识类型识别模块,用于识别所述待处理文本数据的知识类型;
模型选取模块,用于选取与所述知识类型对应的预先训练得到的文本拆分模型;
拆分模块,用于将所述待处理文本数据输入至所述文本拆分模型中进行拆分,得到对应的问答对。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例中所述的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例中所述的方法的步骤。
上述文本数据处理方法、装置、计算机设备和存储介质,在获取到待处理文本数据后,先识别待处理文本数据的类型,这样可以选择与文本类型对应的文本拆分模型,从而通过更为准确的文本拆分模型对待处理文本数据进行拆分,可以保证对待处理文本数据拆分的效率和准确性,不再需要人工拆分,降低人力成本。
附图说明
图1为一个实施例中文本数据处理方法的应用环境图;
图2为一个实施例中文本数据处理方法的流程示意图;
图3为一个实施例中的待处理文本数据上传界面的示意图;
图4为一个实施例中待处理文本数据的知识类型选择界面的示意图;
图5为另一实施例中的文本数据处理方法的流程框图;
图6为文本拆分模型的训练方式的流程图;
图7为一个实施例中的用户问题处理方法的流程图;
图8为另一个实施例中的用户问题处理方法的流程图;
图9为一个实施例中文本数据处理装置的结构框图;
图10为一个实施例中用户问题处理装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的文本数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信,终端102可以将待处理文本数据发送至服务器104,从而服务器104识别待处理文本数据的知识类型,并选取与知识类型对应的预先训练得到的文本拆分模型;将待处理文本数据输入至文本拆分模型中进行拆分,得到对应的问答对。这样在获取到待处理文本数据后,先识别待处理文本数据的类型,这样可以选择与文本类型对应的文本拆分模型,从而通过更为准确的文本拆分模型对待处理文本数据进行拆分,可以保证对待处理文本数据拆分的效率和准确性,不再需要人工拆分,降低人力成本。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种文本数据处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202:获取待处理文本数据。
具体地,待处理文本数据可以是用户上传的非结构化文档、结构化文档或知识。
当存在待处理文本数据的时候,终端接收用户所选择的待处理文本数据,然后将用户所选择的待处理文本数据上传至服务器,以便于服务器对该待处理文本数据进行拆分。
具体地,参见图3所示,图3为一个实施例中的待处理文本数据上传界面的示意图,其中用户需要按照标准录入符合系统识别标准的文档,可以一次选择一个文档或多个文档,并在点击开始上传按钮后将所选择的文档上传至服务器。
S204:识别待处理文本数据的知识类型。
具体地,待处理文本数据的知识类型可以是在上传待处理文本数据时进行选择得到的,或者是对待处理文本数据中的关键字进行识别得到的。知识类型可以是和业务相关的,即不同的业务的知识类型不相同。
其中,参见图4所示,图4为一个实施例中待处理文本数据的知识类型选择界面的示意图,在该实施例中,用户可以根据提示选择答案渠道以及知识类型,并在选择完成后进行待处理文本数据的拆分。
在其他的实施例中,在将待处理文本数据上传至服务器后,服务器可以提取待处理文本数据的标题和/或目录,并对所提取的标题和目录进行分词处理,然后通过将所得到的分词与预先设置的不同的知识类型的关键词进行匹配与确定待处理文本数据的知识类型。
S206:选取与知识类型对应的预先训练得到的文本拆分模型。
文本拆分模型是预先训练得到的,其包括格式拆分和语义拆分。且不同类型的知识所对应的文本拆分模型不同。其中服务器可以根据文档、知识的类型,判断是哪种类型的知识,然后点击后选择该类型知识点匹配的模型,点击确定开始进行自动拆分。或者是服务器直接选取与知识类型对应的预先训练得到的文本拆分模型。
对现有知识库知识内容进行拆分,在现有知识库找到某个要拆分的知识点,点击抽取问答对,即可进行问答对的自动抽取。
S208:将待处理文本数据输入至文本拆分模型中进行拆分,得到对应的问答对。
具体地,文本拆分模型对待处理文本数据进行拆分时,可以从待处理文本数据自动提取文字、表格、图片内容,形成QA问答对,例如先对待处理文本数据进行格式拆分,然后对拆分后的待处理文本数据进行语义分类得到对应的问答对。
上述文本数据处理方法、装置、计算机设备和存储介质,在获取到待处理文本数据后,先识别待处理文本数据的类型,这样可以选择与文本类型对应的文本拆分模型,从而通过更为准确的文本拆分模型对待处理文本数据进行拆分,可以保证对待处理文本数据拆分的效率和准确性,不再需要人工拆分,降低人力成本。
在其中一个实施例中,将待处理文本数据输入至文本拆分模型中进行拆分,得到对应的问答对,包括:对待处理文本进行格式进行识别,并根据识别得到的格式对待处理文本数据进行格式拆分;将进行格式拆分后的待处理文本数据进行语义分类,并根据语义分类后的待处理文本数据得到问答对。
具体地,参见图5,图5为另一实施例中的文本数据处理方法的流程框图,在该实施例中,预先通过训练语料进行训练得到了文本拆分模型。将待处理文本数据输入至该文本拆分模型中首先进行格式拆分,例如根据段落进行拆分得到多个段落,然后将拆分得到的段落输入至预先训练得到的分类模型中进行语义分类这样就得到了段落群,最后根据内容模型进行组合得到对应的问答对。
其中格式拆分具体是通过分析待处理文本数据的格式,利用待处理文本数据的格式中自带的段落,将待处理文本数据拆分成一个一个的问题和答复,然后解读待处理文本数据的格式,例如word文件格式,将待处理文本数据word文件格式转换为预设类型的格式,例如html格式文件,然后解析html文件中的标签。再利用正则表达式将html拆分成合适的段落,每个段落是一个问题或答案。
其中的语义分类是基于一个简单的假设,文档中的每个段落讲的是一类内容。基于这个假设的前提下,可以提供一些文档的段落,并标注这些段落所讲的内容,那么整个拆分的过程,就变成了针对文档段落进行分类的任务。
上述实施例中,先对待处理文本数据进行格式拆分,然后对格式拆分后的待处理文本数据进行语义分类,提高了问答对生成的准确性。
在其中一个实施例中,对待处理文本进行格式进行识别,并根据识别得到的格式对待处理文本数据进行格式拆分,包括:将待处理文本数据转换为预设类型的文件;根据预设类型的文件中的标签对待处理文本数据进行格式拆分得到待处理问题和待处理答案。
具体地,预设类型可以是html类型,标签则是html源码中的标签,例如<p class="X1 X3"style="font-size:10.5pt;">标签下的内容为问题,<p class="X1 X7"style="font-size:10.5pt;">标签下的内容为答案。
因此在实际应用中,例如待处理文本数据是word文档时,则首先将word格式转换为html格式,然后根据上述标签对待处理文本数据进行分割得到待处理问题和待处理答案,直至整个待处理文本数据分割完成。
上述实施例中,充分利用了待处理文本数据的格式,先进行预分类,为后续的语义分类的准确性奠定基础。
在其中一个实施例中,将进行格式拆分后的待处理文本数据进行语义分类,并根据语义分类后的待处理文本数据得到问答对,包括:对拆分后所得到的待处理问题和待处理答案进行向量化;将向量化后的待处理问题和待处理答案输入至预先训练得到的分类模型中,以将待处理问题和待处理答案进行分类得到问答对。
具体地,对待处理问题和待处理答案进行向量化的方式可以包括单词表示one-hot representation和分布式表示distribute representation。其中由于单词表示这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为0,只有一个维度的值为1,这个维度就代表了当前的词。这样就会存在以下缺点:(1)容易受维数灾难的困扰,由于每一个词只有一个维度的值为1,那么在自然语料中,总的词汇量有多少,每一个词就有多少个维度。巨量的维度下,词的存储与计算会变得非常苦难;(2)不能很好地刻画词与词之间的相似性,即语义鸿沟。而分布式表示这种词的表示方法,是将词语映射成一个固定长短的短向量,并且意思相近的词语,有着较小的距离。这种方法解决单词表示的两个问题。即:每个词映射出来的,可以是几百个固定长度的向量,并且每个向量的维度上都有一定的非0值。理论上可以用较低维度的向量映射单词表示方法的高维向量。另外,分布式表示中的距离假设,也会很好解决词之间的语义鸿沟问题。因此本实施例中采用分布式表示的方法。
然后服务器将向量化后的待处理问题和待处理答案输入至预先训练得到的分类模型中,以将待处理问题和待处理答案进行分类得到问答对,其中分类模型可以是采用fastText模型,该fastText模型包括:模型架构、层次Softmax和N-gram特征。fastText模型输入一个词的序列(一段文本或者一句话),输出这个词序列属于不同类别的概率。序列中的词和词组组成特征向量,特征向量通过线性变换映射到中间层,中间层再映射到标签。
fastText在预测标签时使用了非线性激活函数,但在中间层不使用非线性激活函数。fastText模型架构和Word2Vec中的CBOW模型很类似。不同之处在于,fastText预测标签,而CBOW模型预测中间词。
第一部分:fastText的模型架构类似于CBOW,两种模型都是基于HierarchicalSoftmax,都是三层架构:输入层、隐藏层、输出层。CBOW模型又基于N-gram模型和BOW模型,此模型将W(t-N+1)……W(t-1)W(t-N+1)……W(t-1)作为输入,去预测W(t)fastText的模型则是将整个文本作为特征去预测文本的类别。
第二部分:层次之间的映射将输入层中的词和词组构成特征向量,再将特征向量通过线性变换映射到隐藏层,隐藏层通过求解最大似然函数,然后根据每个类别的权重和模型参数构建Huffman树,将Huffman树作为输出。
第三部分:fastText的N-gram特征常用的特征是词袋模型(将输入数据转化为对应的Bow形式)。但词袋模型不能考虑词之间的顺序,因此fastText还加入了N-gram特征。
例如,“我爱她”这句话中的词袋模型特征是“我”,“爱”,“她”。这些特征和句子“她爱我”的特征是一样的。如果加入2-Ngram,第一句话的特征还有“我-爱”和“爱-她”,这两句话“我爱她”和“她爱我”就能区别开来了。为了提高效率,还需要过滤掉低频的N-gram。
如果观察训练语料,发现其分类不仅与文章中间出现的词相关,还与词出现的位置,以及词语出现的次数相关,则fasttext模型会出现较大的分类误差。这种情况下,可以用多层的模型,来替换fasttext可选的方案为CNN、RNN等深度神经网络。
基于fastText、CNN、RNN等深度神经网络计算模型,将拆分出的段落视为A即答案,而要被分到的“类”则是它的Q即问题。这样一个问答对就形成了。以此类推,文档中所有可被归类的答案都会找到对应的问题,自动拆分出多个问答对。
上述实施例中,在得到待处理问题和待处理答案后,首先进行向量化,并将向量化后的待处理问题和待处理答案输入至分类模型中进行语义分类。
在其中一个实施例中,参见图6所示,图6为文本拆分模型的训练方式的流程图,其中训练的过程主要是为了学习格式拆分和语义拆分的方法,其中对于答案归属哪一类问题进行学习是语义拆分的训练,对于哪种格式是问题,哪种格式是答案则是格式拆分的训练,该文本拆分模型的训练方式包括:
S602:获取样本数据。
具体地,样本数据可以是外部数据,其中可以是多个样本文档等,例如100个,则对其中的5个进行标注作为训练数据,剩余的95篇作为测试数据来进行测试。
S604:识别样本数据中的格式,并进行格式拆分后得到样本问题和样本答案。
S606:对样本问题和样本答案进行标注。
具体地,服务器可以预先根据上文中的格式拆分方法将样本数据拆分为样本问题和样本答案。格式拆分方法的训练过程可以是首先将样本数据转换为预设类型的格式,然后根据标注的样本问题和样本答案进行标签的识别,确定样本问题和样本答案的标签,然后在进行模型训练的时候,可以直接对样本数据进行格式拆分后得到样本问题和样本答案,并建立样本问题和样本答案的对应关系,即标注样本问题和样本答案的对应关系。
具体地,服务器可以首先导入训练语料,训练语料可以批量复制到输入框,每行一个训练语料,每个模型单元需要5-10个语料,输入后点击确认将语料导入系统进行标注。其次对导入的训练语料进行人工标注,将同一类型语料标注为某个主题,当新的知识内容进行拆分时,跟语料类似的内容会归为该主题。其中此处的主题即对应上文中的知识类型。
S608:将标注后的样本问题和样本答案输入至预先选择的初始模型中,以进行训练得到文本拆分模型。
具体地,基于对已有文档的分析,在进行分类时,绝大多数文档的分类都和文档中间出现的词紧密相关,而对词出现的位置,以及词出现的次数关系并不太大,所以理论上单层模型足以胜任分类的任务。另外,由于训练语料不可能太多,所以需要一个预训练的词向量,来提升模型的泛化能力。
优选地,将标注后的样本问题和样本答案输入至预先选择的初始模型中,以进行训练得到文本拆分模型,包括:将标注后的样本问题和样本答案进行向量化得到特征向量;将特征向量进行线性映射变换,并将线性映射变换后的特征向量进行标签映射得到对应的训练标签;根据训练标签与样本问题和样本答案的标注标签对预先选择的初始模型进行训练,得到文本拆分模型。
具体地,首先可以参见上文中的向量化的方式将样本问题和样本答案进行向量化得到特征向量,然后通过已知语料的上下文关系,并利用机器学习的方式,不断改变向量组的值,直到找出一种符合要求的向量。
具体地,服务器首先建立一个假设的模型,然后随机选择一系列的模型参数,并将已经标注完成语料输入到神经网络模型中,经过模型的计算,得到语料的预测分类。然后将预测分类与实际标注的分类进行对比,得到一个误差值。通过对比误差值,再调整模型的参数,直到找出一组误差最小的模型参数,停止训练。
在其中一个实施例中,将待处理文本数据输入至文本拆分模型中进行拆分,得到对应的问答对之后,还包括:接收针对问答对的编辑指令,并将编辑后的问答对进行存储。
具体地,在该实施例中,在自动拆分产生问答对后,由人工确认拆分的问答对是否可用,如果可以用,则点击确认录入知识库供用户使用,不可用选择忽略,也可对抽取的答案进行编辑后入库,以便于后续问答对的使用。
在其中一个实施例中,参见图7,图7为一个实施例中的用户问题处理方法的流程图,该用户问题处理方法包括:
S702:接收用户问题;
S704:将用户问题与上述任一实施例中所生成的问答对进行匹配得到对应的自动答复;
S706:输出匹配得到的自动答复。
具体地,问答对自动拆分结果由人工选择后会进入问答对库,可以在问答对库选择要分发的渠道,也可以对问答对进行重新编辑,问答对库可将问答对同步到智能机器人后台,由智能机器人对客户服务。问答对库提供了保存、编辑、删除、同步等多种操作,更重要的是问答对要和源头知识相关联,当源头知识再次发生变化可以通知相关问答对暂时停用,直至源头知识从新拆分出新的问答对覆盖掉旧的问答对。
具体地,结合图8,其中根据上述的文本数据处理方法来生成问答对,并同步至问答对库中,这样只能问答机器人可以使用问答对库中的问答对以进行自动问答。例如,当接收到用户问题时,服务器首先将用户问题与问答对库中的问答对进行匹配,例如根据匹配度的大小获取到匹配成功的问答对,并输出该问答对中对应的自动答复。
上述实施例中,在获取到待处理文本数据后,先识别待处理文本数据的类型,这样可以选择与文本类型对应的文本拆分模型,从而通过更为准确的文本拆分模型对待处理文本数据进行拆分,可以保证对待处理文本数据拆分的效率和准确性,不再需要人工拆分,降低人力成本。
应该理解的是,虽然图1至图8中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1至图8中的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种文本数据处理装置,包括:文本数据获取模块100、知识类型识别模块200、模型选取模块300和拆分模块400,其中:
文本数据获取模块100,用于获取待处理文本数据;
知识类型识别模块200,用于识别待处理文本数据的知识类型;
模型选取模块300,用于选取与知识类型对应的预先训练得到的文本拆分模型;
拆分模块400,用于将待处理文本数据输入至文本拆分模型中进行拆分,得到对应的问答对。
在其中一个实施例中,上述的拆分模块400包括:
格式拆分单元,用于对待处理文本进行格式进行识别,并根据识别得到的格式对待处理文本数据进行格式拆分;
内容拆分单元,用于将进行格式拆分后的待处理文本数据进行语义分类,并根据语义分类后的待处理文本数据得到问答对。
在其中一个实施例中,上述的格式拆分单元包括:
转换子单元,用于将待处理文本数据转换为预设类型的文件;
拆分子单元,用于根据预设类型的文件中的标签对待处理文本数据进行格式拆分得到待处理问题和待处理答案。
在其中一个实施例中,上述的内容拆分单元包括:
向量化处理子单元,用于对拆分后所得到的待处理问题和待处理答案进行向量化;
模型处理子单元,用于将向量化后的待处理问题和待处理答案输入至预先训练得到的分类模型中,以将待处理问题和待处理答案进行分类得到问答对。
在其中一个实施例中,上述的文本数据处理装置还包括:
样本数据获取模块,用于获取样本数据;
格式拆分模块400,用于识别样本数据中的格式,并进行格式拆分后得到样本问题和样本答案;
标注模块,用于对样本问题和样本答案进行标注;
训练模块,用于将标注后的样本问题和样本答案输入至预先选择的初始模型中,以进行训练得到文本拆分模型。
在其中一个实施例中,上述的训练模块包括:
向量化处理单元,用于将标注后的样本问题和样本答案进行向量化得到特征向量;
映射单元,用于将特征向量进行线性映射变换,并将线性映射变换后的特征向量进行标签映射得到对应的训练标签;
训练单元,用于根据训练标签与样本问题和样本答案的标注标签对预先选择的初始模型进行训练,得到文本拆分模型。
在其中一个实施例中,上述的文本数据处理装置还包括:
存储模块,用于接收针对问答对的编辑指令,并将编辑后的问答对进行存储。
在一个实施例中,如图10所示,提供了一种用户问题处理装置,包括:接收模块500、匹配模块600和输出模块700,其中:
接收模块500,用于接收用户问题;
匹配模块600,用于将用户问题与权利要求1至7任意一项所生成的问答对进行匹配得到对应的自动答复;
输出模块700,用于输出匹配得到的自动答复。
关于文本数据处理装置以及用户问题处理装置的具体限定可以参见上文中对于文本数据处理方法和用户问题处理方法的限定,在此不再赘述。上述文本数据处理装置和用户问题处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待处理文本数据和拆分后的问答对。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本数据处理方法。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取待处理文本数据;识别待处理文本数据的知识类型;选取与知识类型对应的预先训练得到的文本拆分模型;将待处理文本数据输入至文本拆分模型中进行拆分,得到对应的问答对。
在一个实施例中,处理器执行计算机程序时所实现的将待处理文本数据输入至文本拆分模型中进行拆分,得到对应的问答对,包括:对待处理文本进行格式进行识别,并根据识别得到的格式对待处理文本数据进行格式拆分;将进行格式拆分后的待处理文本数据进行语义分类,并根据语义分类后的待处理文本数据得到问答对。
在一个实施例中,处理器执行计算机程序时所实现的对待处理文本进行格式进行识别,并根据识别得到的格式对待处理文本数据进行格式拆分,包括:将待处理文本数据转换为预设类型的文件;根据预设类型的文件中的标签对待处理文本数据进行格式拆分得到待处理问题和待处理答案。
在一个实施例中,处理器执行计算机程序时所实现的将进行格式拆分后的待处理文本数据进行语义分类,并根据语义分类后的待处理文本数据得到问答对,包括:对拆分后所得到的待处理问题和待处理答案进行向量化;将向量化后的待处理问题和待处理答案输入至预先训练得到的分类模型中,以将待处理问题和待处理答案进行分类得到问答对。
在一个实施例中,处理器执行计算机程序时所涉及的文本拆分模型的训练方式包括:获取样本数据;识别样本数据中的格式,并进行格式拆分后得到样本问题和样本答案;对样本问题和样本答案进行标注;将标注后的样本问题和样本答案输入至预先选择的初始模型中,以进行训练得到文本拆分模型。
在一个实施例中,处理器执行计算机程序时所实现的将标注后的样本问题和样本答案输入至预先选择的初始模型中,以进行训练得到文本拆分模型,包括:将标注后的样本问题和样本答案进行向量化得到特征向量;将特征向量进行线性映射变换,并将线性映射变换后的特征向量进行标签映射得到对应的训练标签;根据训练标签与样本问题和样本答案的标注标签对预先选择的初始模型进行训练,得到文本拆分模型。
在一个实施例中,处理器执行计算机程序时所涉及的将待处理文本数据输入至文本拆分模型中进行拆分,得到对应的问答对之后,还包括:接收针对问答对的编辑指令,并将编辑后的问答对进行存储。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:接收用户问题;将用户问题与上述任一实施例所生成的问答对进行匹配得到对应的自动答复;输出匹配得到的自动答复。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待处理文本数据;识别待处理文本数据的知识类型;选取与知识类型对应的预先训练得到的文本拆分模型;将待处理文本数据输入至文本拆分模型中进行拆分,得到对应的问答对。
在一个实施例中,计算机程序被处理器执行时所实现的将待处理文本数据输入至文本拆分模型中进行拆分,得到对应的问答对,包括:对待处理文本进行格式进行识别,并根据识别得到的格式对待处理文本数据进行格式拆分;将进行格式拆分后的待处理文本数据进行语义分类,并根据语义分类后的待处理文本数据得到问答对。
在一个实施例中,计算机程序被处理器执行时所实现的对待处理文本进行格式进行识别,并根据识别得到的格式对待处理文本数据进行格式拆分,包括:将待处理文本数据转换为预设类型的文件;根据预设类型的文件中的标签对待处理文本数据进行格式拆分得到待处理问题和待处理答案。
在一个实施例中,计算机程序被处理器执行时所实现的将进行格式拆分后的待处理文本数据进行语义分类,并根据语义分类后的待处理文本数据得到问答对,包括:对拆分后所得到的待处理问题和待处理答案进行向量化;将向量化后的待处理问题和待处理答案输入至预先训练得到的分类模型中,以将待处理问题和待处理答案进行分类得到问答对。
在一个实施例中,计算机程序被处理器执行时所涉及的文本拆分模型的训练方式包括:获取样本数据;识别样本数据中的格式,并进行格式拆分后得到样本问题和样本答案;对样本问题和样本答案进行标注;将标注后的样本问题和样本答案输入至预先选择的初始模型中,以进行训练得到文本拆分模型。
在一个实施例中,计算机程序被处理器执行时所实现的将标注后的样本问题和样本答案输入至预先选择的初始模型中,以进行训练得到文本拆分模型,包括:将标注后的样本问题和样本答案进行向量化得到特征向量;将特征向量进行线性映射变换,并将线性映射变换后的特征向量进行标签映射得到对应的训练标签;根据训练标签与样本问题和样本答案的标注标签对预先选择的初始模型进行训练,得到文本拆分模型。
在一个实施例中,计算机程序被处理器执行时所涉及的将待处理文本数据输入至文本拆分模型中进行拆分,得到对应的问答对之后,还包括:接收针对问答对的编辑指令,并将编辑后的问答对进行存储。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:接收用户问题;将用户问题与上述任一实施例所生成的问答对进行匹配得到对应的自动答复;输出匹配得到的自动答复。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (11)

1.一种文本数据处理方法,其特征在于,所述方法包括:
获取待处理文本数据;
识别所述待处理文本数据的知识类型;
选取与所述知识类型对应的预先训练得到的文本拆分模型;
将所述待处理文本数据输入至所述文本拆分模型中进行拆分,得到对应的问答对。
2.根据权利要求1所述的方法,其特征在于,所述将所述待处理文本数据输入至所述文本拆分模型中进行拆分,得到对应的问答对,包括:
对所述待处理文本进行格式进行识别,并根据识别得到的格式对所述待处理文本数据进行格式拆分;
将进行格式拆分后的待处理文本数据进行语义分类,并根据语义分类后的待处理文本数据得到问答对。
3.根据权利要求2所述的方法,其特征在于,所述对所述待处理文本进行格式进行识别,并根据识别得到的格式对所述待处理文本数据进行格式拆分,包括:
将所述待处理文本数据转换为预设类型的文件;
根据所述预设类型的文件中的标签对所述待处理文本数据进行格式拆分得到待处理问题和待处理答案。
4.根据权利要求3所述的方法,其特征在于,所述将进行格式拆分后的待处理文本数据进行语义分类,并根据语义分类后的待处理文本数据得到问答对,包括:
对拆分后所得到的待处理问题和待处理答案进行向量化;
将向量化后的待处理问题和待处理答案输入至预先训练得到的分类模型中,以将所述待处理问题和待处理答案进行分类得到问答对。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述文本拆分模型的训练方式包括:
获取样本数据;
识别所述样本数据中的格式,并进行格式拆分后得到样本问题和样本答案;
对所述样本问题和样本答案进行标注;
将标注后的样本问题和样本答案输入至预先选择的初始模型中,以进行训练得到文本拆分模型。
6.根据权利要求5所述的方法,其特征在于,所述将标注后的样本问题和样本答案输入至预先选择的初始模型中,以进行训练得到文本拆分模型,包括:
将标注后的样本问题和样本答案进行向量化得到特征向量;
将所述特征向量进行线性映射变换,并将线性映射变换后的特征向量进行标签映射得到对应的训练标签;
根据所述训练标签与所述样本问题和样本答案的标注标签对预先选择的初始模型进行训练,得到文本拆分模型。
7.根据权利要求1至4任意一项所述的方法,其特征在于,所述将所述待处理文本数据输入至所述文本拆分模型中进行拆分,得到对应的问答对之后,还包括:
接收针对所述问答对的编辑指令,并将编辑后的问答对进行存储。
8.一种用户问题处理方法,其特征在于,所述用户问题处理方法包括:
接收用户问题;
将所述用户问题与权利要求1至7任意一项所生成的问答对进行匹配得到对应的自动答复;
输出匹配得到的所述自动答复。
9.一种文本数据处理装置,其特征在于,所述装置包括:
文本数据获取模块,用于获取待处理文本数据;
知识类型识别模块,用于识别所述待处理文本数据的知识类型;
模型选取模块,用于选取与所述知识类型对应的预先训练得到的文本拆分模型;
拆分模块,用于将所述待处理文本数据输入至所述文本拆分模型中进行拆分,得到对应的问答对。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7或8中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7或8中任一项所述的方法的步骤。
CN202011615867.XA 2020-12-30 2020-12-30 文本数据处理方法、装置、计算机设备和存储介质 Pending CN112632258A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011615867.XA CN112632258A (zh) 2020-12-30 2020-12-30 文本数据处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011615867.XA CN112632258A (zh) 2020-12-30 2020-12-30 文本数据处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN112632258A true CN112632258A (zh) 2021-04-09

Family

ID=75287130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011615867.XA Pending CN112632258A (zh) 2020-12-30 2020-12-30 文本数据处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112632258A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673255A (zh) * 2021-08-25 2021-11-19 北京市律典通科技有限公司 文本功能区域拆分方法、装置、计算机设备及存储介质
CN116743672A (zh) * 2023-06-08 2023-09-12 新分享科技服务(深圳)有限公司 基于人工智能的流量分发方法、系统、设备及存储介质
WO2024041009A1 (zh) * 2022-08-25 2024-02-29 华为云计算技术有限公司 生成问答对的方法、装置、计算机集群和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363693A (zh) * 2018-02-13 2018-08-03 上海智臻智能网络科技股份有限公司 文本处理方法和装置
CN111507082A (zh) * 2020-04-23 2020-08-07 北京奇艺世纪科技有限公司 文本处理方法和装置、存储介质和电子装置
CN111859960A (zh) * 2020-07-27 2020-10-30 中国平安人寿保险股份有限公司 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363693A (zh) * 2018-02-13 2018-08-03 上海智臻智能网络科技股份有限公司 文本处理方法和装置
CN111507082A (zh) * 2020-04-23 2020-08-07 北京奇艺世纪科技有限公司 文本处理方法和装置、存储介质和电子装置
CN111859960A (zh) * 2020-07-27 2020-10-30 中国平安人寿保险股份有限公司 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673255A (zh) * 2021-08-25 2021-11-19 北京市律典通科技有限公司 文本功能区域拆分方法、装置、计算机设备及存储介质
CN113673255B (zh) * 2021-08-25 2023-06-30 北京市律典通科技有限公司 文本功能区域拆分方法、装置、计算机设备及存储介质
WO2024041009A1 (zh) * 2022-08-25 2024-02-29 华为云计算技术有限公司 生成问答对的方法、装置、计算机集群和存储介质
CN116743672A (zh) * 2023-06-08 2023-09-12 新分享科技服务(深圳)有限公司 基于人工智能的流量分发方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110765265B (zh) 信息分类抽取方法、装置、计算机设备和存储介质
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN109885672B (zh) 一种面向在线教育的问答式智能检索系统及方法
CN110909137A (zh) 基于人机交互的信息推送方法、装置和计算机设备
CN110704576B (zh) 一种基于文本的实体关系抽取方法及装置
CN112632258A (zh) 文本数据处理方法、装置、计算机设备和存储介质
CN111259113B (zh) 文本匹配方法、装置、计算机可读存储介质和计算机设备
CN112131345B (zh) 文本质量的识别方法、装置、设备及存储介质
CN112131876A (zh) 一种基于相似度确定标准问题的方法及系统
KR20200087977A (ko) 멀티모달 문서 요약 시스템 및 방법
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
CN115204156A (zh) 关键词提取方法及装置
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
CN113705191A (zh) 样本语句的生成方法、装置、设备及存储介质
CN116541493A (zh) 基于意图识别的交互应答方法、装置、设备、存储介质
CN114840685A (zh) 一种应急预案知识图谱构建方法
CN117077679A (zh) 命名实体识别方法和装置
CN116821285A (zh) 基于人工智能的文本处理方法、装置、设备及介质
CN114398903B (zh) 意图识别方法、装置、电子设备及存储介质
CN112749251B (zh) 文本处理方法、装置、计算机设备和存储介质
CN114942981A (zh) 问答查询方法、装置、电子设备及计算机可读存储介质
CN114547313A (zh) 资源类型识别方法以及装置
CN114492437A (zh) 关键词识别方法、装置、电子设备及存储介质
CN114328820A (zh) 信息搜索方法以及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination