CN115114416A - 一种问答对生成方法、装置、电子设备及计算机存储介质 - Google Patents
一种问答对生成方法、装置、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN115114416A CN115114416A CN202110310398.9A CN202110310398A CN115114416A CN 115114416 A CN115114416 A CN 115114416A CN 202110310398 A CN202110310398 A CN 202110310398A CN 115114416 A CN115114416 A CN 115114416A
- Authority
- CN
- China
- Prior art keywords
- document
- text
- question
- model
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000012634 fragment Substances 0.000 claims abstract description 56
- 238000012549 training Methods 0.000 claims description 51
- 238000004891 communication Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 16
- 239000013598 vector Substances 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 7
- 241000736199 Paeonia Species 0.000 description 6
- 235000006484 Paeonia officinalis Nutrition 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 6
- WPYMKLBDIGXBTP-UHFFFAOYSA-N benzoic acid Chemical compound OC(=O)C1=CC=CC=C1 WPYMKLBDIGXBTP-UHFFFAOYSA-N 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 239000005711 Benzoic acid Substances 0.000 description 2
- YKRGDOXKVOZESV-WRJNSLSBSA-N Paeoniflorin Chemical compound C([C@]12[C@H]3O[C@]4(O)C[C@](O3)([C@]1(C[C@@H]42)O[C@H]1[C@@H]([C@@H](O)[C@H](O)[C@@H](CO)O1)O)C)OC(=O)C1=CC=CC=C1 YKRGDOXKVOZESV-WRJNSLSBSA-N 0.000 description 2
- 208000002193 Pain Diseases 0.000 description 2
- 235000010233 benzoic acid Nutrition 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000004185 liver Anatomy 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- YKRGDOXKVOZESV-UHFFFAOYSA-N paeoniflorin Natural products O1C(C)(C2(CC34)OC5C(C(O)C(O)C(CO)O5)O)CC3(O)OC1C24COC(=O)C1=CC=CC=C1 YKRGDOXKVOZESV-UHFFFAOYSA-N 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 208000004998 Abdominal Pain Diseases 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 244000236658 Paeonia lactiflora Species 0.000 description 1
- 235000008598 Paeonia lactiflora Nutrition 0.000 description 1
- 208000005392 Spasm Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000017531 blood circulation Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005176 gastrointestinal motility Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 241000411851 herbal medicine Species 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 210000002189 macula lutea Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 210000000952 spleen Anatomy 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种问答对生成方法、装置、电子设备及计算机存储介质。根据本发明实施例提供的问答对生成方案,从文档中获取文档片段,进而基于预先训练好的第一模型和所述文档片段从所述文档中得到对应的问题文本,然后采用预先训练好的第二模型根据所述问题文本从所述文档中得到对应于所述问题文本的答案文本,在这种先获取问题再寻找答案的方式中,基于第一模型可以实现从文档中自动的挖掘出大量的问题文本,同时基于深度学习的第二模型提高了预测得到的答案文本和生成的问题文本的匹配程度。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种问答对生成方法、装置、电子设备及计算机存储介质。
背景技术
问答对(question-answer pair)广泛应用于机器学习领域中,诸如机器阅读理解、智能问答,知识库配置、数据增广等等。但是目前高质量的质量问答对往往高度依赖于人工标注,花费较高。而采用现有的基于算法的问答对的自动生成方法通常会导致生成的问题不连贯,以及答案和问题之间的相关度较低。
基于此,需要一种更准确的问答对生成方案。
发明内容
有鉴于此,本发明实施例提供一种问答对生成方案,以至少部分解决上述问题。
根据本发明实施例的第一方面,提供了一种问答对生成方法,包括:
获取文档,从所述文档中获取文档片段;
根据预先训练得到的第一模型、所述文档和所述文档片段,生成对应于所述文档片段的问题文本;
根据预先训练得到的第二模型、所述文档和所述问题文本,从所述文档中获取对应于所述问题文本的答案文本;
建立所述问题文本和所述答案文本的关联关系,生成对应于所述文档片段的问答对。
根据本发明实施例的第二方面,提供了一种问答对生成装置,所述装置包括:
获取模块,获取文档,从所述文档中获取文档片段;
问题文本生成模块,根据预先训练得到的第一模型、所述文档和所述文档片段,生成对应于所述文档片段的问题文本;
答案文本生成模块,根据预先训练得到的第二模型、所述文档和所述问题文本,从所述文档中获取对应于所述问题文本的答案文本;
问答对生成模块,建立所述问题文本和所述答案文本的关联关系,生成对应于所述文档片段的问答对。
根据本发明实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的问答对生成方法对应的操作。
根据本发明实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的问答对生成方法。
根据本发明实施例提供的问答对生成方案,从文档中获取文档片段,进而基于预先训练好的第一模型和所述文档片段从所述文档中得到对应的问题文本,然后采用预先训练好的第二模型根据所述问题文本从所述文档中得到对应于所述问题文本的答案文本。在这种先获取问题再寻找答案的方式中,基于第一模型可以实现从文档中自动的挖掘出大量的问题文本,同时基于深度学习的第二模型提高了预测得到的答案文本和生成的问题文本的匹配程度,从而实现自动化的从文档中产生准确匹配的问答对。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1a为当前方案从文档中生成问答对时所涉及的流程示意框图;
图1b为本申请实施例所提供的一种问答对生成方法的框架示意图;
图2为本申请实施例所提供的一种问答对生成方法的流程示意图;
图3为本申请实施例所提供的一种文档分割的示意图;
图4为本申请实施例所提供的一种第一模型中编码和解码的框架示意图;
图5为本申请实施例所提供的一种基于问题文本和文档生成答案文本的示意图;
图6为本申请实施例所提供的一种问答对生成装置的结构示意图;
图7为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
当前从文档中得到问答对的方式要么是人工抽取;要么是采用先抽取出关键词作为答案(answer),然后基于预训练模型从文档中找出与答案匹配的问题(question)。如图1a所示,图1a为当前方案从文档中生成问答对时所涉及的流程示意框图。
在图1a这种方案下,由于是先提取出答案,那么就很容易抽取到一些特别细节的信息,例如,如果文档本身是介绍芍药花的药用价值的情形时,“芍药花功效:养血活血,缓急止疼,柔肝安脾,疏肝养颜,去黄斑,常喝能面色红润,有制菌作用,能缓解由于胃肠蠕动亢进而引起的腹部疼,能治疗血瘀引起的疼经。芍药不仅是名花,而且根可供药用。根据分析,芍药根含有芍药甙和安息香酸,用途因种而异”。此时,得到的关键词可能就包含有“芍药甙”、“安息香酸”等等这些无效的关键词。这些无效的关键词其实和文档本身的目的(即用户可能想要进行询问的问题)并无太大关系。
换言之,在图1a这种方案下,第一步进行关键词抽取时就可能存在诸如(1)抽取不出来;(2)抽取出来的关键词太宽泛;(3)抽取的关键词没有意义等多种意外情况,进而导致后续生成的问题和答案匹配度不高。
基于此,本申请实施例提供一种问答对生方案。如图1b所示,图1b为本申请实施例所提供的一种问答对生成方法的框架示意图。具体而言,即首先对文档进行划分,并基于文档片段生成问题,然后基于该问题从文档中生成对应的答案。
如图2所示,图2为本申请实施例所提供的一种问答对生成方法的流程示意图,所述方法包括:
S201,获取文档,从所述文档中获取文档片段。
其中,文档可以是任意的包含多个字符的文档。
文档片段可以是文档中的部分内容,需要说明的是文档片段中所中包含的内容应当是是文档中连续的字符。
在一种实施方式中,获取文档片段的方式可以采用关键词抽取模型,从文档中抽取得到部分的关键词和/或关键句,将抽取得到的关键词和/或关键句确定为文档片段。
在另一种实施方式中,还可以采用可调整的滑窗和滑动步长对文档进行分割,而得到多个文档片段。滑窗具有可调整窗口长度。其中,滑动步长用于指示划分得到的相邻的两个文档片段的间隔,即一个文档片段的首字符与相邻的另一个文档片段的首字符之间的长度,包括但不限于字符数;而窗口长度则用于指示划分得到任意的文档片段的长度,即一个文档片段的长度,如文档片段中所包含的字符数。
如图3所示,图3为本申请实施例所提供的一种通过滑窗方式进行文档分割的示意图。在这种划分方式下,划分得到的多个文档片段是等长的。划分得到的每个文档片段可能从语义上并不完整(例如,对于片段2而言,其结尾处为“常绿”,但是实际上在文档中的原本语义是指常绿乔木),以及其中还会包含一些标点字符,但是这并不会影响后续对于问题文本的生成。
此外,在这种分割方式下,由于滑窗和滑动步长是可以调整的。因此,可以通过调整滑窗的窗口长度和滑动步长来得到不同类型的文档片段。具体而言,如果希望文档片段长一些,即可以增加窗口长度;而如果希望产生较多的文档片段,即可以降低滑动步长。
进一步地,在同一份文档中,还可以采用不同的滑动步长和窗口长度来进行多次划分,而得到多个文档片段,从而有利于后续产生更多的对应的问题以及对应的问答对。
在一种实施方式中,滑窗中的滑动步长小于所述窗口长度,如图3中所示。例如,滑动步长为30字符,而窗口长度为50字符,通过该方式可以使得分割得到的文档片段覆盖了文档的全量字符,而不会产生遗漏的字符,从而后续生成的问答对更为全面。
采用关键词/句抽取得到文档片段和采用滑窗得到文档片段的方式可以择一实施,或者同时实施。
通过这种文档与文档片段相结合的方式,可以将所有可能的答案片段都输入到第一模型如问题生成模型中,从而极大地提升后续产生的问题答案对的数目。
S203,根据预先训练得到的第一模型、所述文档和所述文档片段,生成对应于所述文档片段的问题文本。
第一模型可以采用预先训练得到的可用模型,其用于生成与文档片段对应的问题文本。例如,第一模型可以为问题生成模型,如基于Encoder-Decode结构的模型,包括但不限于Transformer结构的模型,或者可采用BERT(Bidirectional Encoder Representationfrom Transformers)模型。
具体而言,可以预先给定的训练文档、给定的训练文档片段以及对应的问题文本进行第一模型的预训练,从而得到可用的第一模型。在预训练的过程中,可以采用预设的连接字符(例如SEP)连接所述给定的训练文档和所述给定的训练文档片段,从而得到形式如“给定文档+SEP+给定文档片段”的训练样本,并依据所述训练样本进行预训练。
在预训练的过程中,可以通过第一模型采用双向编码器对所述训练样本进行编码,即对于训练样本中的任一字符转换为对应的字符向量之后,在训练过程中,该字符向量所表征的信息会同时受到与其相邻的前一字符以及后一字符的影响。在采用双向编码器的模型中,双向编码器对于输入的文本进行编码时,其可以同时得到所有位置上的字符的输入信息。
同时,在预训练的过程中,第一模型在对字符向量进行解码而得到输出时,采用的是残差自回归(auto-regression Transformers)的方式进行解码。具体而言,对于输入字符向量在经过第一模型的编码处理后会得到相应的编码字符向量,而第一模型还需要对该编码字符向量进行解码,在解码过程中,通过第一模型采用一个字符的预测结果作为相邻的下一字符的输入进行依序解码,生成对应的第一输出。换言之,第一模型在解码的过程中,当前位置只能得到该位置之前的字符的状态信息,而不能得到在其之后的其它字符的状态信息。
在预训练完成之后,此时的第一模型就已经有了较准确的问题提取的能力。此时,即可以将所述文档和所述文档片段按照预训练时的训练样本所对应的格式作为输入。即,依序拼接所述文档、预设连接字符(与预训练时所使用的连接字符相同)和所述文档片段,生成第一拼接文本,将所述第一拼接文本作为所述第一模型的第一输入,从而预先训练得到的第一模型将会采用如预训练时所同样的双向编码器对所述第一拼接文本进行编码,同时在得到第一输出时也如前所述的采用残差自回归的方式进行依序解码,而得到问题文本。如图4所示,图4为本申请实施例所提供的一种第一模型中编码和解码的框架示意图。在该示意图中,解码部分中的下方部分中的字符表征的是对应的字符向量,解码部分中的下方部分中的字符表征的是对应的字符文本,在解码时,实行的是依序对<s>(即起始符)、A、B和C进行了解码。
此外,需要说明的是,得到的问题文本中所包含的任一字符均存在于所述文档中,换言之,问题文本的字符所构成的集合是文档的字符所构成的集合的子集。
S205,根据预先训练得到的第二模型、所述文档和所述问题文本,从所述文档中获取对应于所述问题文本的答案文本。
其中,第二模型为可根据所述文档和所述问题文本输出答案文本的任意适当模型。在一种可行方式中,第二模型可以采用BERT模型,并采用前述给定的训练文档、对对应的问题文本以及对应的答案文本进行预训练。在对第二模型进行预训练时,同样可以采用预设的连接字符(例如SEP),连接所述给定的问题文本和所述给定的训练文档对所述第二模型进行训练。
需要注意的是,在对第一模型进行预训练时,训练样本中的字符的顺序依次为“训练文档、连接字符、文档片段”,从而实现从训练文档中找出文档片段所对应的问题文本;而在对第二模型进行预训练时,需要从训练文档中找出问题文本所对应的答案,因此,此时第二训练样本中字符的顺序依次为“问题文本、连接字符、训练文档”。
在第二模型预训练结束之后,即可以采用训练好的第二模型来基于前一步骤S203中所得到问题文本从文档中进行答案的生成。具体而言,即采用与预训练时相同的拼接方式与相同的连接字符,依序拼接所述问题文本、预设连接字符和所述文档,生成第二拼接文本,并将第二拼接文本作为第二模型的第二输入,生成对应的第二输出,根据所述第二输出确定对应于所述问题文本的答案文本。
由于第二模型的形式不同,实际上得到的第二输出的形式也有多种不同。在第二模型的预训练为对于多个语句的分类训练时,得到的第二输出可能为多个语句,此时即可以将多数多个语句确定为对应于所述问题文本的答案文本。
在一种实施方式中,可以通过所述第二模型从所述文档中确定所述第二拼接文本所对应的字符起始位置和字符结束位置;将所述字符起始位置和字符结束位置所对应的字符区间内的文本确定为所述第二输出,即将所述字符起始位置和字符结束位置所对应的字符区间内的文本确定为所述第二输出,进而根据第二输出确定答案文本。如图5所示,图5为本申请实施例所提供的一种基于问题文本和文档生成答案文本的示意图。在该示意图中,首先将长度为N的问题文本和长度为M的文档基于连接字符SEP进行了依序拼接,并进行了如前所述的双向编码,从而得到多个对应的向量(即图5中的符号E表示对应的向量),从而从该文档中预测得到字符起始位置和字符结束位置。
与问题文本类似,到的答案文本中所包含的任一字符均存在于所述文档中,换言之,答案文本的字符所构成的集合是文档的字符所构成的集合的子集。
S207,建立所述问题文本和所述答案文本的关联关系,生成对应于所述文档片段的问答对。
如前所述,文档片段可能基于对文档分割而划分得到的多个片段。在本申请中,前述步骤S203至S205中描述的是针对一个文档片段进行处理而得到的一个对应的问题文本和答案文本,即文档片段和答案对是一一对应的。当存在多个文档片段时,实际上就会存在多个对应的问答对。从而在实际中,可以基于经验来调整前述滑窗的滑动步长,来实现对于问答对数量的控制。例如,通常认为一个500字左右的文档,其可能产生的问题约为10个,那么此时即可以调整滑动步长为50个字符,从而产生10个文档片段(窗口长度不受影响),进而生成10个问答对,并部署至线上,以待用户查询。
根据本发明实施例提供的问答对生成方案,从文档中获取文档片段,进而基于预先训练好的第一模型和所述文档片段从所述文档中得到对应的问题文本,然后采用预先训练好的第二模型根据所述问题文本从所述文档中得到对应于所述问题文本的答案文本。在这种先获取问题再寻找答案的方式中,基于第一模型可以实现从文档中自动的挖掘出大量的问题文本,同时基于深度学习的第二模型提高了预测得到的答案文本和生成的问题文本的匹配程度,从而实现自动化的从文档中产生准确匹配的问答对。
本实施例的问答对生成方法可以由任意适当的具有数据处理能力的电子设备执行,包括诸如移动终端(如手机、PAD等)和PC机等。
本申请所提供的方案可以广泛应用于各种场景中,以下列举几个具体的应用场景,以对于本申请所提供的方案给出更为示例性说明。
例如,在在线教育的场景中,用户(包括学生、家长或者老师)等经常会存在一些需要咨询的问题。在这种场景下,提供在线教育的服务机构即可以基于前述方案来挖掘得到大量的问答对并进行部署。
首先,服务机构可以事先基于用户关心的方面给出一个较为详细的介绍文本(例如,关于教学资源方面的介绍,教学资源可以包括师资力量、所采用的教材,教学的方式等等),该介绍文本可能约500个字符左右。
然后采用可调整的滑窗和滑动步长对文档进行分割,而得到多个文档片段。例如,设置滑窗的窗口长度为50,滑动步长也为50,那么此时可以得到10个长度为50且不重叠的文档片段;又例如,设置滑窗的窗口长度为100,滑动步长为50,那么此时可以得到10个长度为100且前后依序重叠了50个字符长度的文档片段,该方式得到的文档片段覆盖了介绍文本的全部字符。
进而,可以基于预先训练好的第一模型(例如,Encoder-Decode结构的模型),将所述文档和所述文档片段按照预训练时的训练样本所对应的格式作为第一输入,从而第一模型模型将会采用如预训练时所同样的双向编码器对所述第一输入进行编码,并基于第一输入得到第一输出,在得到第一输出时采用残差自回归的方式进行依序解码,而得到问题文本。如果划分得到10个文档片段,此时将对应有10个第一输入,以及将会分别对应得到10个问题文本。此时得到的问题文本可能是诸如“机构的教师有哪些”、“采用什么资料作为教材”等等。
从而可以依序拼接所述问题文本、预设连接字符和所述500字的介绍文档,从而得到第二拼接文本,并把第二拼接文本作为预先训练好的第二模型(例如,采用BERT模型)的第二输入,生成对应的第二输出(一个第二输入可能存在多个对应的第二输出),从而将第二输出作为答案文本。此时生成的答案文本则通常是在介绍文档中已经被提及的“本机构的教师有A、B等等”,“本机构采用人教版或者xx定制版作为教材”等等已经被已经被包含于介绍文档中的答案文本。
进而,建立得到前述的问题文本和所述答案文本的关联关系,生成对应的问答对并部署上线。
通过这种方式,只需要预先训练好第一模型和第二模型,然后在获取得到介绍文档时,根据需要改变滑窗的窗口长度和滑动步长,即可以大量对应于介绍文档的问答对并部署上线,不再需要人工去挖掘,快捷高效。
在健康保护的场景下,同样可以基于类似的方式,让医生或者相关人员给出相应疾病、症状、药物、天然草本药材等资料的具体介绍文档,如图3中所示给出的对于芍药的功能介绍文档。然后即可以根据需要设置滑窗的窗口长度和滑动步长,从而基于预先训练好的第一模型和第二模型而得到大量的关于“芍药”的问答对,并部署即可。
在实际应用中,预先训练好第一模型和第二模型训练的相关平台可以为其它的服务机构提供问答对的生成服务,服务机构只需要在平台中上传自己的相关文档,并自己设置好相关的参数(即滑窗的窗口长度和滑动步长),平台即可以调用预先训练好的第一模型和第二模型,根据参数针对相关文档给出对应的问答对,并反馈给服务机构,这给服务机构提供了相当程度的便利。
对于本申请的第二方面,提供一种问答对生成装置,如图6所示,图6为本申请实施例所提供的一种问答对生成装置的结构示意图,所述问答对生成装置包括:
获取模块601,获取文档,从所述文档中获取文档片段;
问题文本生成模块603,根据预先训练得到的第一模型、所述文档和所述文档片段,生成对应于所述文档片段的问题文本;
答案文本生成模块605,根据预先训练得到的第二模型、所述文档和所述问题文本,从所述文档中获取对应于所述问题文本的答案文本;
问答对生成模块607,建立所述问题文本和所述答案文本的关联关系,生成对应于所述文档片段的问答对。
可选地,所述获取模块601,从所述文档中抽取关键词和/或关键句,将抽取得到的关键词和/或关键句确定为文档片段;和/或,采用可调整的滑窗和滑动步长对所述文档进行滑动分割处理,得到多个文档片段。
可选地,所述获取模块601,采用可调整的滑窗和滑动步长对所述文档进行滑动分割处理时,所述滑动步长小于所述滑窗的窗口长度。
可选地,所述问题文本生成模块603,依序拼接所述文档、预设连接字符和所述文档片段,生成第一拼接文本;将所述第一拼接文本作为所述第一模型的第一输入,生成对应的第一输出,将所述第一输出确定为对应于所述文档片段的问题文本;相应的,所述答案文本生成模块605,依序拼接所述问题文本、预设连接字符和所述文档,生成第二拼接文本;将所述第二拼接文本作为所述第二模型的第二输入,生成对应的第二输出,根据所述第二输出确定为对应于所述问题文本的答案文本。
可选地,所述答案文本生成模块605,将所述第二拼接文本输入所述第二模型,作为第二输入;通过所述第二模型从所述文档中确定所述第二拼接文本所对应的字符起始位置和字符结束位置;将所述字符起始位置和字符结束位置所对应的字符区间内的文本确定为所述第二输出。
可选地,问题文本生成模块603,将所述第一拼接文本输入所述第一模型,作为第一输入;通过所述第一模型采用双向编码器对所述第一拼接文本进行编码;通过所述第一模型采用一个字符的预测结果作为相邻的下一字符的输入进行依序解码,生成对应的第一输出。
本实施例的问答对生成装置用于实现前述多个方法实施例中相应的问答对生成方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的问答对生成装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
本申请实施例的第三方面,参照图7,图7示出了根据本发明实施例的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图7所示,该电子设备可以包括:处理器(processor702、通信接口(Communications Interface)704、存储器(memory)706、以及通信总线708。
其中:
处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。
通信接口704,用于与其它电子设备或服务器进行通信。
处理器702,用于执行程序710,具体可以执行上述问答对生成方法实施例中的相关步骤。
具体地,程序710可以包括程序代码,该程序代码包括计算机操作指令。
处理器702可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器706,用于存放程序710。存储器706可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
程序710具体可以用于使得处理器702执行以下操作:
获取文档,从所述文档中获取文档片段;
根据预先训练得到的第一模型、所述文档和所述文档片段,生成对应于所述文档片段的问题文本;
根据预先训练得到的第二模型、所述文档和所述问题文本,从所述文档中获取对应于所述问题文本的答案文本;
建立所述问题文本和所述答案文本的关联关系,生成对应于所述文档片段的问答对。
程序710中各步骤的具体实现可以参见上述问答对生成方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
本申请实施例的第四方面,还提供一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如图2所述的问答对生成方法中各步骤所对应的操作。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的问答对生成方法。此外,当通用计算机访问用于实现在此示出的问答对生成方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的问答对生成方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。
Claims (9)
1.一种问答对生成方法,包括:
获取文档,从所述文档中获取文档片段;
根据预先训练得到的第一模型、所述文档和所述文档片段,生成对应于所述文档片段的问题文本;
根据预先训练得到的第二模型、所述文档和所述问题文本,从所述文档中获取对应于所述问题文本的答案文本;
建立所述问题文本和所述答案文本的关联关系,生成对应于所述文档片段的问答对。
2.如权利要求1所述的方法,其中,从文档中获取文档片段,包括:
从所述文档中抽取关键词和/或关键句,将抽取得到的关键词和/或关键句确定为文档片段;和/或,
采用可调整的滑窗和滑动步长对所述文档进行滑动分割处理,得到多个文档片段。
3.如权利要求2所述的方法,其中,采用可调整的滑窗和滑动步长对所述文档进行滑动分割处理时,所述滑动步长小于所述滑窗的窗口长度。
4.如权利要求1所述的方法,其中,根据预先训练得到的第一模型、所述文档和所述文档片段,生成对应于所述文档片段的问题文本,包括:
依序拼接所述文档、预设连接字符和所述文档片段,生成第一拼接文本;
将所述第一拼接文本作为所述第一模型的第一输入,生成对应的第一输出,将所述第一输出确定为对应于所述文档片段的问题文本;
相应的,根据预先训练得到的第二模型、所述文档和所述问题文本,从所述文档中获取对应于所述问题文本的答案文本,包括:
依序拼接所述问题文本、预设连接字符和所述文档,生成第二拼接文本;
将所述第二拼接文本作为所述第二模型的第二输入,生成对应的第二输出,根据所述第二输出确定对应于所述问题文本的答案文本。
5.如权利要求4所述的方法,其中,将所述第二拼接文本作为所述第二模型的第二输入,生成对应的第二输出,包括:
将所述第二拼接文本输入所述第二模型,作为第二输入;
通过所述第二模型从所述文档中确定所述第二拼接文本所对应的字符起始位置和字符结束位置;
将所述字符起始位置和字符结束位置所对应的字符区间内的文本确定为所述第二输出。
6.如权利要求4所述的方法,将所述第一拼接文本作为所述第一模型的第一输入,包括:
将所述第一拼接文本输入所述第一模型,作为第一输入;
通过所述第一模型采用双向编码器对所述第一拼接文本进行编码;
相应的,生成对应的第一输出,包括:通过所述第一模型采用一个字符的预测结果作为相邻的下一字符的输入进行依序解码,生成对应的第一输出。
7.一种问答对生成装置,所述装置包括:
获取模块,获取文档,从所述文档中获取文档片段;
问题文本生成模块,根据预先训练得到的第一模型、所述文档和所述文档片段,生成对应于所述文档片段的问题文本;
答案文本生成模块,根据预先训练得到的第二模型、所述文档和所述问题文本,从所述文档中获取对应于所述问题文本的答案文本;
问答对生成模块,建立所述问题文本和所述答案文本的关联关系,生成对应于所述文档片段的问答对。
8.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的问答对生成方法对应的操作。
9.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-6中任一所述的问答对生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110310398.9A CN115114416A (zh) | 2021-03-23 | 2021-03-23 | 一种问答对生成方法、装置、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110310398.9A CN115114416A (zh) | 2021-03-23 | 2021-03-23 | 一种问答对生成方法、装置、电子设备及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115114416A true CN115114416A (zh) | 2022-09-27 |
Family
ID=83323329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110310398.9A Pending CN115114416A (zh) | 2021-03-23 | 2021-03-23 | 一种问答对生成方法、装置、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115114416A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556906A (zh) * | 2024-01-11 | 2024-02-13 | 卓世智星(天津)科技有限公司 | 问答数据集生成方法、装置、电子设备及存储介质 |
-
2021
- 2021-03-23 CN CN202110310398.9A patent/CN115114416A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556906A (zh) * | 2024-01-11 | 2024-02-13 | 卓世智星(天津)科技有限公司 | 问答数据集生成方法、装置、电子设备及存储介质 |
CN117556906B (zh) * | 2024-01-11 | 2024-04-05 | 卓世智星(天津)科技有限公司 | 问答数据集生成方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639163A (zh) | 问题生成模型的训练方法、问题生成方法及其相关设备 | |
US11270099B2 (en) | Method and apparatus for generating facial feature | |
CN108595583B (zh) | 动态图表类页面数据爬取方法、装置、终端及存储介质 | |
CN110446063B (zh) | 视频封面的生成方法、装置及电子设备 | |
CN110428820A (zh) | 一种中英文混合语音识别方法及装置 | |
CN110297897B (zh) | 问答处理方法及相关产品 | |
CN110991165A (zh) | 文本中人物关系提取方法及装置、计算机设备和存储介质 | |
CN112487139A (zh) | 基于文本的自动出题方法、装置及计算机设备 | |
CN114556328A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN110544470B (zh) | 语音识别方法、装置、可读存储介质和电子设备 | |
CN111950303B (zh) | 医疗文本翻译方法、装置及存储介质 | |
CN111524593A (zh) | 基于上下文语言模型和知识嵌入的医疗问答方法及系统 | |
CN105593845A (zh) | 基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法 | |
CN113177435A (zh) | 试卷分析方法、装置、存储介质及电子设备 | |
CN112463942A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN114036902A (zh) | 医学实体预标注方法、装置、存储介质及电子设备 | |
CN113535144A (zh) | 自然语言编程方法、装置、设备及存储介质 | |
CN115114416A (zh) | 一种问答对生成方法、装置、电子设备及计算机存储介质 | |
CN113536795A (zh) | 实体关系抽取的方法、系统、电子装置和存储介质 | |
CN115759293A (zh) | 模型训练方法、图像检索方法、装置及电子设备 | |
CN114821613A (zh) | 一种pdf中表格信息的抽取方法和系统 | |
CN110110777A (zh) | 图像处理方法和训练方法、以及装置、介质和计算设备 | |
CN111274813B (zh) | 语言序列标注方法、装置存储介质及计算机设备 | |
CN111339809A (zh) | 一种课堂行为分析方法及装置、电子设备 | |
CN117315249A (zh) | 指代图像分割模型训练和分割方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20240312 Address after: 51 Belarusian Pasha Road, Singapore, Lai Zan Da Building 1 # 03-06, Postal Code 189554 Applicant after: Alibaba Innovation Co. Country or region after: Singapore Address before: Room 01, 45th Floor, AXA Building, 8 Shanton Road, Singapore Applicant before: Alibaba Singapore Holdings Ltd. Country or region before: Singapore |
|
TA01 | Transfer of patent application right |