CN114417863A - 词权重生成模型训练方法及装置、词权重生成方法及装置 - Google Patents

词权重生成模型训练方法及装置、词权重生成方法及装置 Download PDF

Info

Publication number
CN114417863A
CN114417863A CN202210067908.9A CN202210067908A CN114417863A CN 114417863 A CN114417863 A CN 114417863A CN 202210067908 A CN202210067908 A CN 202210067908A CN 114417863 A CN114417863 A CN 114417863A
Authority
CN
China
Prior art keywords
target
keyword
word weight
question
generation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210067908.9A
Other languages
English (en)
Inventor
吴思远
李长亮
李小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Digital Entertainment Co Ltd filed Critical Beijing Kingsoft Digital Entertainment Co Ltd
Publication of CN114417863A publication Critical patent/CN114417863A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供词权重生成模型训练方法及装置、词权重生成方法及装置,其中所述词权重生成模型训练方法包括:获取目标问题和所述目标问题对应的目标答案;提取所述目标问题的至少一个关键词组合,根据所述至少一个关键词组合确定初始文档集合;根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合;根据所述目标关键词组合确定所述目标问题中的每个关键词对应的词权重;根据所述目标问题、所述每个关键词和所述每个关键词对应的词权重训练词权重生成模型,直至达到训练停止条件。通过本申请提供的词权重生成模型训练方法得到训练完成的词权重生成模型,有效避免某些垂直领域搭建的数据库中关键词TF‑IDF与人的先验知识不匹配的问题。

Description

词权重生成模型训练方法及装置、词权重生成方法及装置
技术领域
本申请涉及计算机技术领域的人工智能领域,特别涉及词权重生成模型训练方法及装置、词权重生成方法及装置、计算设备和计算机可读存储介质。
背景技术
人工智能(artificial intelligence;AI)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。自然语言处理、机器人、计算机视觉成为了人工智能最为热门的三个产业方向。人工智能领域关键技术的发展状况,包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。随着计算机技术的发展,自然语言处理领域也得到了快速发展,根据文本进行信息检索是自然语言处理领域的一个重要分支。
自然语言处理(NLP,Natural Language Processing)是计算机科学领域的一个重要研究方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。随着自然语言处理技术的发展,各个应用程序的用户对应用程序能够准确识别和理解用户发出的问题的需求也越来越高。自然语言处理面临四大挑战:一是在词法、句法、语义、语用和语音等不同层面存在不确定性;二是新的词汇、术语、语义和语法导致未知语言现象的不可预测性;三是数据资源的不充分使其难以覆盖复杂的语言现象;四是语义知识的模糊性和错综复杂的关联性难以用简单的数学模型描述,语义计算需要参数庞大的非线性计算。
对于问句处理任务,现有技术在垂直领域内的冷启动阶段进行检索时,通常通过有监督的人工标注来标注不同问句中的分词权重,进而训练机器学习的模型。但基于人工标注依赖于人的先验知识,在没有标注答案监督的情况下进行标注,会导致待处理问句中的词权重标注不准确,进而导致在某些垂直领域搭建的数据库中关键词TF-IDF与人的先验知识不匹配。
发明内容
有鉴于此,本申请实施例提供了词权重生成模型训练方法及装置、词权重生成方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的缺陷。
根据本申请实施例的第一方面,提供了一种词权重生成模型训练方法,包括:
获取目标问题和所述目标问题对应的目标答案;
提取所述目标问题的至少一个关键词组合,根据所述至少一个关键词组合确定初始文档集合;
根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合;
根据所述目标关键词组合确定所述目标问题中的每个关键词对应的词权重;
根据所述目标问题、所述每个关键词和所述每个关键词对应的词权重训练词权重生成模型,直至达到训练停止条件。
根据本申请实施例的第二方面,提供了一种词权重生成方法,包括:
获取待处理问题;
将所述待处理问题输入至预先训练好的词权重生成模型,其中,所述词权重生成模型是通过上述的词权重生成模型训练方法训练得到的;
所述词权重生成模型响应于所述待处理问题作为输入而生成至少一个关键词和所述至少一个关键词的对应的词权重。
根据本申请实施例的第三方面,提供了一种词权重生成模型训练装置,包括:
第一获取模块,被配置为获取目标问题和所述目标问题对应的目标答案;
提取模块,被配置为提取所述目标问题的至少一个关键词组合,根据所述至少一个关键词组合确定初始文档集合;
确定模块,被配置为根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合;
权重模块,被配置为根据所述目标关键词组合确定所述目标问题中的每个关键词对应的词权重;
训练模块,被配置为根据所述目标问题、所述每个关键词和所述每个关键词对应的词权重训练词权重生成模型,直至达到训练停止条件。
根据本申请实施例的第四方面,提供了一种词权重生成装置,包括:
第二获取模块,被配置为获取待处理问题;
输入模块,被配置为将所述待处理问题输入至预先训练好的词权重生成模型,其中,所述词权重生成模型是通过上述的词权重生成模型训练方法训练得到的;
生成模块,被配置为所述词权重生成模型响应于所述待处理问题作为输入而生成至少一个关键词和所述至少一个关键词的对应的词权重。
根据本申请实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述词权重生成模型训练方法或所述词权重生成方法的步骤。
根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述词权重生成模型训练方法或所述词权重生成方法的步骤。
根据本申请实施例的第七方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述词权重生成模型训练方法或所述词权重生成方法的步骤。
本申请实施例提供的词权重生成模型训练方法中,包括获取目标问题和所述目标问题对应的目标答案;提取所述目标问题的至少一个关键词组合,根据所述至少一个关键词组合确定初始文档集合;根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合;根据所述目标关键词组合确定所述目标问题中的每个关键词对应的词权重;根据所述目标问题、所述每个关键词和所述每个关键词对应的词权重训练词权重生成模型,直至达到训练停止条件。本申请实施例提供的词权重生成模型训练方法,能够准确地计算目标问题中每个关键词的词权重,进而能够根据所述词权重进行检索并得到所述目标问题对应的答案,有效避免某些垂直领域搭建的数据库中关键词TF-IDF与人的先验知识不匹配的问题。
其次,通过分词与过滤停用词的方式在所述目标问题中提取关键词组合,节省了计算资源,提高了后续根据关键词进行检索的检索效率。
最后,根据目标答案在文档集合中匹配并确定目标文档集合,能够更加准确的确定符合目标答案的文档集合,解决了现有技术中利用人工标注关键词导致的在某些垂直领域内检索答案不准确的问题。
附图说明
图1是本申请实施例提供的计算设备的结构框图;
图2是本申请实施例提供的词权重生成模型训练方法的流程图;
图3是本申请实施例提供的词权重生成方法的流程图;
图4是本申请实施例提供的词权重生成模型训练方法、词权重生成方法在一个具体应用场景中的流程图;
图5是本申请实施例提供的词权重生成模型训练装置的结构示意图;
图6是本申请实施例提供的词权重生成装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
冷启动:指产品处于没有用户数据的起步阶段。
垂直领域:指专业领域,如军事、政务、汽车等领域。
机器学习(Machine Learning):是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是人工智能技术的核心。基于数据的机器学习是现代智能技术中的重要方法之一,研究从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。根据学习模式、学习方法以及算法的不同,机器学习存在不同的分类方法。根据学习模式、学习方法以及算法的不同,机器学习存在不同的分类方法。根据学习模式将机器学习分类为监督学习、无监督学习和强化学习等。
有监督:也被称为监督学习、有监督机器学习(supervised machine learning),是指基于标注的示例输入-输出对,学习输入-输出映射函数的任务,是一个机器学习中的方法,可以由训练资料中学到或建立一个模式(函数),并依此模式推测新的实例。监督学习是利用已标记的有限训练数据集,通过某种学习策略/方法建立一个模型,实现对新数据/实例的标记(分类)/映射,最典型的监督学习算法包括回归和分类。监督学习要求训练样本的分类标签已知,分类标签精确度越高,样本越具有代表性,学习模型的准确度越高。监督学习在自然语言处理、信息检索、文本挖掘、手写体辨识、垃圾邮件侦测等领域获得了广泛应用。
无监督学习:是利用无标记的有限数据描述隐藏在未标记数据中的结构/规律,最典型的非监督学习算法包括单类密度估计、单类数据降维、聚类等。无监督学习不需要训练样本和人工标注数据,便于压缩数据存储、减少计算量、提升算法速度,还可以避免正、负样本偏移引起的分类错误问题。主要用于经济预测、异常检测、数据挖掘、图像处理、模式识别等领域,例如组织大型计算机集群、社交网络分析、市场分割、天文数据分析等。
词权重:代表一个词语在一句话中的重要程度,一般使用TermWeight表示。
TF-IDF(term frequency–inverse document frequency):是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(InverseDocument Frequency)。
BM25算法:是一种用来评价搜索词和文档之间相关性的算法,主要是计算问题中所有的词和文档的相关度。
在本申请中,提供了词权重生成模型训练方法及装置、词权重生成方法及装置、计算设备和计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示词权重生成模型训练方法中的步骤。
图2示出了根据本申请一实施例的一种词权重生成模型训练方法的流程图,包括步骤S202至步骤S210。
步骤S202:获取目标问题和所述目标问题对应的目标答案。
在自然语言处理领域中,通常会处理根据问题给出相应答案的业务,在该业务场景中,每个问题中的词语的重要程度各不相同,有些是对该问题的最终答案有重要影响的词,有些是作为保证问题通顺的词,因此,需要为问题中的每个词语做的重要程度(即权重)做标注,目前为问题中每个词语进行标注权重是通过人工标注来实现,但人工标注过于依赖人的先验知识,在没有标注答案监督的情况下进行标注,会导致处理问题中的词权重不准确的问题。
在产品处于没有用户数据的研发阶段,没有存储用户的点击行为和用户数据,为了避免人的先验知识和检索数据库中的TF-IDF(词频-逆文档频率)带来的差异,本申请提供了一种词权重生成模型训练方法,通过本申请提供的词权重生成模型训练方法得到训练完成的词权重生成模型,有效避免某些垂直领域搭建的数据库中关键词TF-IDF与人的先验知识不匹配的问题。
本申请实施例提供的词权重生成模型训练方法,根据提出的目标问题和反馈的文档构成训练样本,根据提出的目标问题和反馈的文档计算所述目标问题中每一个关键词的词权重。在词权重生成模型的训练过程中,通过获取用户线上搜索的问题,根据搜索问题获得与其相对应的多篇文档并反馈给用户,用户再多篇反馈文档中选择对自己有用的目标反馈文档进行浏览,根据该搜索问题和该目标文档构建训练数据,其中,目标问题是通过用户在手机或电脑上输入希望搜索的问题,通过网络传输的方式传输至服务器,服务器将该问题作为目标问题,目标答案为该目标问题对应的正确答案,通常目标答案会在多个文档或段落中出现,对于同一个问题,可能会有多个文档或段落都能给出不同或相同的答案,目标答案由服务器通过计算获得。
可选地,获取目标问题和目标答案的方法,包括:
读取日志记录信息;
获取所述日志记录信息中记录的搜索问题和所述搜索问题的目标反馈文档;
根据所述搜索问题和所述搜索问题的目标反馈文档确定所述搜索问题对应的目标答案。
其中,日志记录信息保存在搜索引擎对应的服务器端,记录了用户在线上进行的各种处理,如登录、输入、点击、搜索等等一系列操作,用户在线上进行搜索时,在服务器的日志记录信息中会记录用户输入的搜索问题作为目标问题,根据该目标问题进行搜索获得多篇反馈文档,并将目标答案展示给用户并突出显示,同时将与目标答案对应的多篇反馈文档分别展示给用户。用户会在展示的多篇反馈文档进行挑选,通过点击相应的文档链接进行查看。另外,日志记录信息也会记录用户点击了哪些文档链接。搜索引擎反馈给用户用于用户查看的文档称为反馈文档,用户点击文档链接进行查看的该反馈文档称为目标反馈文档。
服务器读取日志记录信息,可以在日志记录信息中读取目标问题和目标问题对应的一个或多个目标反馈文档的链接,根据目标反馈文档的链接即可获得所述搜索问题对应的一篇或者多篇目标反馈文档集合。
在获取搜索问题和搜索问题的目标反馈文档后,可以通过预先训练好的问答模型在目标反馈文档中查找该搜索问题对应的一个目标答案,也可以根据文本分析或者关键词匹配等方式在目标反馈文档中查找该搜索问题对应的一个目标答案。
在本申请提供的一个具体实施例中,通过日志记录信息获取用户在网络上搜索问题“每隔多少年会出现一次闰年?”,则确定该问题为目标问题,同时获取了目标反馈文档有文档1(文档1中记录了什么是闰年、为什么会有闰年)、文档2(文档2中记录了闰年的基本知识),通过对文档1和文档2进行语义分析,可以确定目标问题对应的目标答案为“每隔四年会出现一次闰年”。
在冷启动阶段获取目标问题和与所述目标问题对应的目标答案,保证了能够根据所述目标答案准确地获取符合目标问题的文章,进而保证了所述词权重生成模型在训练的过程中能够准确地得到所述目标问题中的词权重。
步骤S204:提取所述目标问题的至少一个关键词组合,根据所述至少一个关键词组合确定初始文档集合。
所述关键词组合即为所述目标问题中的关键词进行组合后得到的词组,所述文档集合即为通过所述关键词词组进行搜索得到的召回文档组成的文档集合。
在实际应用中,所述目标问题通常是一个句子,而一个句子中通常包括多个关键词,提取该目标问题中的多个关键词,再将多个关键词进行排列组合得到所述目标问题的至少一个关键词组合,例如,一个目标句子由3个关键词组成,三个关键词分别为t1、t2、t3,则根据排列组合的原理,可以获得{t1、t2、t3}、{t1、t2}、{t1、t3}、{t2、t3}、{t1}、{t2}、{t3}共计7个关键词组合。再根据这7个关键词组合分别在互联网中进行查询,将每个根据关键词组合查询到的文档作为召回文档进行组合,获得文档集合。
在实际应用中,例如“2019年的考研人数是多少?”中包括关键词“2019年”、“的”、“考研”、“人数”、“是多少”。在获取所述目标问题的关键词后,将所述至少一个关键词进行组合即可得到所述目标问题的至少一个关键词组合,例如将关键词“2019年”和关键词“考研”进行组合,得到所述目标问题的关键词组合“2019年考研”,也可以将关键词“考研”与关键词“人数”进行组合得到关键词组合“考研人数”,在得到所述关键词组合后,根据所述关键词组合在互联网中进行关键词匹配,检索得到包含所述关键词的至少一个召回文档,所述至少一个召回文档组成的集合即为所述目标问题的文档集合。
通过获取目标问题中的关键词进行搜索并确定文档集合,可以扩大根据关键词命中的文档的数量,为后续确定目标关键词提供文档基础。
在本申请实施例一个可选的实施方式中,提取所述目标问题的至少一个关键词组合,包括:
提取所述目标问题的至少一个关键词;
根据所述至少一个关键词确定至少一个关键词组合。
在实际应用中,每一个目标问题中都包含至少一个关键词,在通过所述至少一个关键词进行检索前,还可以将所述至少一个关键词进行组合得到至少一个关键词组合,根据关键词组合再进行检索得到的文档会更加精准,避免一些无关、无效文档,提高处理效率。
在本申请提供的一个实施例中,假设目标问题为“2019年参加研究生招生考试的人数有多少?”,所述目标问题中的关键词包括:“2019年”、“参加”、“研究生”、“考试”、“人数”,可以将所述关键词分别进行组合,即可得到关键词组合。例如将关键词“2019年”和关键词“考试”进行组合,得到关键词组合“2019年考试”,又例如可以将关键词“2019年”与关键词“研究生”进行组合,得到关键词组合“2019年研究生”,再例如可以将关键词“研究生”和关键词“人数”进行组合,得到关键词组合“研究生人数”;也可以将三个不同的关键词进行组合,得到关键词组合“2019年参加考试”。在实际应用中,需要按照任意的排列组合方式对提取出的关键词进行组合得到多种不同的关键词组合。
在本申请实施例一个可选的实施方式中,提取所述目标问题的至少一个关键词,包括:
对所述目标问题进行分词处理,得到所述目标问题的至少一个关键词。
在实际应用中,若要提取所述目标问题中的关键词,则需要首先对所述目标问题进行分词处理,例如将目标问题“2019年参加研究生招生考试的人数有多少?”进行分词处理,得到数个关键词,如“2019年”、“参加”、“研究生”、“招生”、“考试”、“的”、“人数”、“有多少”。
在本申请实施例一个可选的实施方式中,对所述目标问题进行分词处理,得到所述目标问题的至少一个关键词,包括:
对所述目标问题进行分词处理,得到初始关键词集合;
过滤所述初始关键词集合中的停用词,得到所述目标问题的至少一个关键词。
其中,停用词是指在信息检索中,为了节省存储空间和提高搜索效率,在处理自然语言文本之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词。这些停用词一般通过人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。
通过对所述初始关键词集合进行去停用词处理,去除了初始关键词组合中的冗余数据,进一步提高了由目标问题中提取到的关键词的准确性,也保证了计算所述关键词的词权重的准确性。
在实际应用中,对所述目标问题进行分词处理后得到初始关键词集合,沿用上例,对目标问题“2019年参加研究生招生考试的人数有多少?”进行分词处理后,可以得到初始关键词集合{“2019年”,“参加”,“研究生”,“招生”,“考试”,“的”,“人数”,“有多少”},再过滤所述初始关键词集合中的停用词,例如,根据预设的停用词表将目标问题“2019年参加研究生招生考试的人数有多少?”中,“的”、“有多少”过滤,获得所述目标问题的关键词为{“2019年”,“参加”,“研究生”,“招生”,“考试”,“人数”}。
通过过滤所述初始关键词集合中的停用词,节省了计算资源,提高了后续根据关键词进行检索的检索效率。
在本实施例一个可选的实施方式中,根据所述至少一个关键词组合确定初始文档集合,包括:
搜索所述每个关键词组合对应的初始文档;
将所述初始文档组合成为初始文档集合。
在确定关键词组合之后,再根据每个关键词组合进行关键词匹配搜索对应的文档,获取每个关键词组合对应的一个或多个召回文档为初始文档,所有的关键词组合对应的初始文档组合到一起即为文档集合。文档集合是未经过任何筛选的一个或者多个召回文档的组合。
需要注意的是,在实际应用中,由于搜索引擎会对每个关键词组合返回大量的初始文档,当关键词组合过多时,会导致初始文档结合中的文档非常庞大,进而导致服务的负载较重,服务器需消耗更多时间来计算和筛选出目标答案,因此为了减轻服务器的负担,可以将每个关键词组合对应的初始文档根据与关键词组合的关联程度进行排序,再根据预设的文档选取策略,确定选取排名靠前的文档作为精选初始文档,例如,选取每个关键词组合对应的关联度较高的5篇文档,或者选取每个关键词组合对应的关联度较高的前10篇文档等等。
在本申请提供的一具体实施方式中,关键词为t1、t2、t3,将所述关键词t1、t2、t3进行组合后得到多个关键词组合:t1,t2,t3,t1 t2,t1 t3,t2 t3,t1 t2 t3,根据每一个关键词组合进行检索,得到数个召回文档:C1、C2……Cn,其中,C1与关键词组合t1 t2和t1 t3对应,C2与关键词组合t2 t3对应,……Cn与关键词组合t1 t3对应。在得到数个召回文档后,所述数个召回文档组成的集合即为文档集合C:{C1,C2……Cn}。
通过获取目标问题中的关键词组合并根据所述关键词组合中的关键词进行搜索,进而获得文档集合,扩大了计算目标答案的参考文档数量,为后续准确确定目标关键词组合提供了基础。
步骤S206:根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合。
获取初始文档集合中的初始文档或者精选初始文档,初始文档或者精选初始文档的内容中有些包括目标问题对应的该目标答案,有些不包括目标问题对应的该目标答案,此时,需要根据目标答案在初始文档集合中确定包括目标答案的文档有哪些,然后将包括目标答案的文档组成一个目标文档集合,因此,目标文档集合即为初始文档集合中与目标答案相符的文档的集合,目标文档对应的关键词组合即为目标关键词集合。也就是说,目标文档是一批既包括了目标问题中较多的关键词,又包括了目标答案的目标文档。本申请将这批目标文档所对应的关键词组合,作为目标关键词集合。
具体的,根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合,包括:
根据所述目标答案在所述初始文档集合中确定目标文档集合;
根据所述目标文档集合确定目标关键词组合。
具体的,根据所述目标答案在所述初始文档集合中确定目标文档集合的步骤,包括:
将所述目标答案与所述初始文档集合中的初始文档进行匹配;
确定与所述目标答案匹配的初始文档为目标文档,并将至少一个或多个目标文档组合生成目标文档集合。
在实际应用中,根据所述目标答案和所述初始文档集合匹配目标文档集合方法有很多,比如可以通过将目标答案转换为答案向量,将初始文档转换为文档向量,再计算答案向量与文档向量的相似度,选择该相似度超过预设阈值的初始文档作为目标文档;又比如还可以根据预先训练好的问答匹配模型,在初始文档集合的每个初始文档中确定是否包括目标问题对应的目标答案,将包含该目标答案的初始文档作为目标文档,进而确定目标文档集合。
在本申请提供的一具体实施方式中,假设此时文档集合C:{C1,C2,……Cn}中能够符合目标答案“2019年参加研究生招生考试的人数为290万人次”的召回文档为C2、C4、C7、C11、C14……Cm,即可在所述文档集合C中确定C2、C4、C7、C11、C14……Cm均为符合目标答案的文档,进而确定C2对应关键词组合“t3”、C4、C7、C11对应关键词组合“t1 t3”、C14对应关键词组合“t1 t2”,……Cm对应关键词组合“t1 t2 t3”,最后确定“t1 t2”、“t1 t3”、“t1 t2t3”和“t3”是目标关键词组合。
在实际应用中,所述目标文档集合即为所述文档集合中可以满足所述目标答案的文档的集合,所述目标关键词组合即为可以满足所述目标答案的文档的集合中的关键词组合。例如,所述目标答案为“《静夜思》的作者是李白”,所述目标问题为“《静夜思》的作者叫什么名字?”,根据所述目标问题提取关键词,得到关键词“《静夜思》”、“作者”、“名字”,并得到关键词组合“《静夜思》作者”、“《静夜思》名字”、“作者名字”、“《静夜思》作者名字”等关键词组合。利用提取后得到的关键词组合进行检索,得到文档A(与关键词组合“《静夜思》作者”对应)、文档B(与关键词组合“《静夜思》名字”对应)、文档C(与关键词组合“作者名字”对应)、文档D(与关键词组合“《静夜思》作者名字”对应),此时文档A、文档B、文档C和文档D组成文档集合K,将目标答案与每篇文档进行匹配,确定文档A与目标答案匹配,则文档A为目标文档,文档A对应的关键词组合“《静夜思》作者”为目标关键词组合。
步骤S208:根据所述目标关键词组合确定所述目标问题中的每个关键词对应的词权重。
在获取目标关键词组合后,即可根据所述目标关键词组合确定所述目标问题中的每个关键词对应的词权重。需要注意的是,本申请中,是要根据目标关键词组合确定目标问题中每个关键词对应的词权重,例如沿用步骤S206中的例子,在获取目标关键词组合“《静夜思》作者”后,可以根据所述目标关键词组合中出现的关键词“《静夜思》”和“作者”确定所述目标问题中每个关键词(《静夜思》、作者、叫、什么、名字)的词权重。
通过获取目标关键词组合,进而通过所述目标关键词组合确定所述目标问题中每个关键词对应的词权重,可以保证对待处理的目标问题中每个词语的权重标注是准确的,也保证了根据所述目标问题进行检索得到答案是准确的,有效避免了某些垂直领域搭建的数据库中关键词TF-IDF与人的先验知识不匹配的问题。
在本申请实施例一个可选的实施方案中,根据所述目标关键词组合确定所述目标问题中的每个关键词对应的词权重,包括:
获取所述目标关键词组合的数量和所述目标问题中的每个关键词在所述目标关键词组合中的出现次数;
根据所述目标关键词组合的数量和所述目标问题中的每个关键词在所述目标关键词组合中的出现次数确定所述目标问题中的每个关键词对应的词权重。
在实际应用中,需要根据所述目标问题中所有关键词的总数与获取到的目标关键词的数量计算所述目标问题中的每一个关键词的词权重。
例如,目标问题为“2020年高考全国考上大学的人数是多少?”,对应的目标答案为“500万”。在获取目标问题后,对所述目标问题“2020年高考全国考上大学的人数是多少?”进行分词、去停用词处理,得到关键词“2020年高考”、“全国”、“考上”、“大学”、“人数”,对上述关键词“2020年高考”、“全国”、“考上”、“大学”、“人数”进行组合后确定关键词组合可以包括“2020年高考全国”、“2020年高考大学”、“全国大学”、“全国人数”、“考上大学”、“全国大学人数”、“2020年高考考上大学人数”等多个关键词组合,根据每个所述关键词组合进行检索,获得文档集合(W1、W2……Wn)。根据目标答案为“500万”分别取文档集合中的每个文档进行匹配,确定W1和W5可以命中目标答案,则W1和W5为目标文档,目标文档W1对应的关键词组合“2020年高考考上”和W5对应的关键词组合“2020年高考考上大学”为目标关键词组合。
此时,目标关键词组合为2个,关键词“2020年高考”出现了2次、关键词“全国”出现0次、关键词“考上”出现2次、关键词“大学”出现1次、关键词“人数”出现0次。
在获取每个关键词在所述目标关键词组合中出现的次数与所述目标关键词组合中的关键词组合的数量后,即可确定每个关键词的权重,具体的,关键词的权重由下述公式1得到:
Figure BDA0003480891900000141
在公式1中,X表示关键词对应的词权重,n表示所述目标问题中该关键词在目标关键词组合中出现的次数,N表示目标关键词组合的数量。
在本申请提供的一具体实施方式中,沿用上例,以关键词“2020年高考”为例,“2020年高考”在目标关键词组合中出现的次数为2,目标关键词组合为2个,则关键词“2020年高考”的词权重x=2/2=1。
需要说明的是,在实际应用中,可能存在某些关键词没有出现在目标关键词组合中的情况,例如,关键词“全国”在目标关键词组合中出现的次数为0,则关键词“全国”对应的词权重x=0/2=0。在此种情况下,关键词“全国”在目标问题“2020年高考全国考上大学的人数是多少?”中的词权重为0。
需要注意的是,同一个关键词在不同的目标问题中的重要程度是不一样的,比如,关键词“全国”在第一个目标问题中的词权重可能为0,但在第二个目标问题中的词权重可能为0.5,因此,在不同的目标问题中,同一个关键词对应的词权重可能是不同的,每个关键词对应的词权重与目标问题相关,与关键词本身无关。
通过统计关键词在目标关键词组合中出现的次数以及所述目标关键词组合的数量,通过关键词出现的次数和关键词组合的数量计算所述目标问题中每一个关键词的词权重,确保了所述词权重生成模型可以准确地得到目标问题中每一个关键词的词权重,提升了所述词权重生成模型的准确性,也有效避免在垂直领域搭建的数据库中根据TF-IDF计算方式计算的词权重不准确的问题,为计算目标问题中每个关键词的词权重,提供了一种简单便捷的计算方式。
步骤S210:根据所述目标问题、所述每个关键词和所述每个关键词对应的词权重训练词权重生成模型,直至达到训练停止条件。
在通过上述步骤获取目标问题中的关键词、计算所述目标问题中每一个所述关键词对应的词权重后,将目标问题作为样本数据,将所述每个关键词和所述每个关键词对应的词权重作为样本标签对所述词权重生成模型进行训练。
在本申请提供的一具体实施方式中,沿用上例,目标问题为“2020年高考全国考上大学的人数是多少?”,对应的关键词和关键词权重为(2020年高考-1,全国-0,考上-1,大学-0.5,人数-0),其中,“2020年高考”的词权重为1,“全国”的词权重为0……。将“2020年高考全国考上大学的人数是多少?”作为样本数据,将(2020年高考-1,全国-0,考上-1,大学-0.5,人数-0)作为样本标签对词权重生成模型进行训练。
在本实施例一个可选的实施方案中,根据所述目标问题、所述每个关键词和所述每个关键词对应的词权重训练词权重生成模型,包括:
将所述目标问题输入词权重生成模型;
所述词权重生成模型响应于所述目标问题作为输入而生成至少一个预测关键词和所述至少一个预测关键词对应的预测词权重;
根据所述至少一个预测关键词和所述至少一个预测关键词对应的预测词权重与每个目标关键词和每个目标关键词对应的词权重计算损失值;
根据所述损失值调整所述词权重生成模型的参数。
在实际应用中,将目标问题和每个关键词输入至待训练的词权重生成模型中进行预测处理,词权重生成模型根据目标问题和每个关键词生成每个关键词对应的预测权重值,根据每个关键词的预测权重值和目标权重值计算损失值,并根据损失值调整词权重生成模型的参数对词权重生成模型进行训练。
在本申请中,计算损失值Loss的方式具体可以为采用MSE均方误差损失函数,参见下述公式2:
Figure BDA0003480891900000161
其中,MSE表示损失值Loss,yi为第i个关键词的目标权重值,
Figure BDA0003480891900000162
为第i个关键词的预测权重值。在实际应用中,关键词输入至词权重生成模型时标记有位置信息,每个关键词的位置信息与在目标问题中的顺序相同,相应的,生成的预测权重值也有位置信息,根据关键词的位置信息和预测权重值的位置信息即可计算损失值,进而可以根据上述公式2计算损失值。例如,所述词权重生成模型响应于所述目标问题“2020年高考全国考上大学的人数是多少?”作为输入,生成预测关键词和预测关键词对应的权重为(2020年高考-0.7,全国-0.2,考上-0.6,大学-0.7,人数-0.2),根据预测关键词和预测关键词对应的权重与样本标签计算损失值,并基于损失值调整所述词权重生成模型中的模型参数。
本申请实施例提供的词权重生成模型训练方法中,包括获取目标问题和所述目标问题对应的目标答案;提取所述目标问题的至少一个关键词组合,根据所述至少一个关键词组合确定初始文档集合;根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合;根据所述目标关键词组合确定所述目标问题中的每个关键词对应的词权重;根据所述目标问题、所述每个关键词和所述每个关键词对应的词权重训练词权重生成模型,直至达到训练停止条件。通过本申请提供的词权重生成模型训练方法得到训练完成的词权重生成模型,有效避免某些垂直领域搭建的数据库中关键词TF-IDF与人的先验知识不匹配的问题。
其次,通过分词与过滤停用词的方式在所述目标问题中提取关键词组合,节省了计算资源,提高了后续根据关键词进行检索的检索效率。
最后,根据目标答案在文档集合中匹配并确定目标文档集合,能够更加准确的确定符合目标答案的文档集合,解决了现有技术中利用人工标注关键词导致的在某些垂直领域内检索答案不准确的问题。
图3示出了本申请一实施例的词权重生成方法,该词权重生成方法包括步骤S302至步骤S306。
步骤S302:获取待处理问题。
在实际应用中,在所述词权重生成模型训练完成后,即可接收用户提出的问题,并将所述用户提出的问题作为待处理问题。例如,用户提出问题“2020年12月15日的天气怎么样?”,则将用户提出的问题“2020年12月15日的天气怎么样?”作为待处理问题。
通过获取待回复问题,确保所述词权重生成模型可以接收有效的输入内容,避免了因输入内容无效导致的错误,提升了用户体验。
步骤S304:将所述待处理问题输入至预先训练好的词权重生成模型。
步骤S306:所述词权重生成模型响应于所述待处理问题作为输入而生成至少一个关键词和所述至少一个关键词的对应的词权重。
在步骤S306中,所述词权重生成模型获取输入的待处理问题后,根据预先训练的词权重生成模型进行计算,对所述待处理问题提取关键词后,得到关键词“2020年12月15日”、关键词“天气”,并得到所述待处理问题“2020年12月15日的天气怎么样?”中每一个关键词的词权重:关键词“2020年12月15日”的权重X1=1,关键词“天气”的权重X2=0.8。
通过所述词权重生成模型计算得到待处理问题的词权重,保证了可以快速、准确的获取待处理问题中每一个关键词的词权重,确保了可以避免通过人工标注待回复问题中关键词的词权重导致的所述词权重不准确的问题,有效避免某些垂直领域搭建的数据库中关键词TF-IDF与人的先验知识不匹配的问题。
如图4所示,图4示出了本申请一个实施例提供的词权重生成模型训练方法、词权重生成方法在一个具体应用场景中的流程图,其中包括步骤S402-步骤S416。
步骤S402:获取目标问题“2019年全国参加基本医保的人数有多少”和所述目标问题对应的目标答案“1345412万人”。
在冷启动阶段,为了训练词权重生成模型,需要设置目标问题和对应的目标答案,在本实施例中以“2019年全国参加基本医保的人数有多少”为目标问题、以“1345412万人”为目标答案进行具体说明。在实际应用中,为了训练所述词权重生成模型,需要获取多个目标问题和对应的目标答案,在本实施例中以其中一个目标问题和对应的答案进行举例说明。
步骤S404:提取所述目标问题中的关键词并得到关键词组合,通过所述关键词组合确定文档集合。
在本申请提供的具体实施例中,沿用上例,获取目标问题后,需要对所述目标问题进行分词、去停用词处理,并提取所述目标问题中的关键词“2019年”、“全国”、“参加”、“基本医保”、“人数”,将上述关键词进行组合,得到所述目标问题的关键词组合有31种,分别为Y1、Y2、……Y31,其中,Y1为“2019年”,Y2为“全国”……,Y31为“2019年全国参加基本医保人数”。
得到关键词组合后,分别根据上述关键词组合进行关键词搜索,得到召回的文档集合为(Z1、Z2……Z31)。其中,召回文档Z1至召回文档Z31分别对应关键词组合Y1至关键词组合Y31。
步骤S406:根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合。
在本申请提供的具体实施例中,沿用上例,根据目标答案“1345412万人”在文档集合(Z1、Z2……Z31)中进行匹配,确定与目标答案匹配的目标文档为Z4和Z7,进而确定目标文档Z4对应的关键词组合“参加基本医保”和目标文档Z7对应的关键词组合“2019年参加基本医保人数”为目标关键词组合。
步骤S408:在所述目标关键词组合中确定所述目标问题中每个关键词对应的词权重。
在本申请提供的具体实施例中,沿用上例,确定目标关键词组合后,根据所述目标关键词组合的数量和所述目标问题中每个关键词在所述目标关键词组合中的出现次数计算每个关键词的词权重。
其中,关键词“2019年”的词权重为1/2=0.5,关键词“全国”的词权重为0/2=0、关键词“参加”的词权重为2/2=1、关键词“基本医保”的词权重为2/2=1、关键词“人数”的词权重为1/2=0.5。
步骤S410:将目标问题、关键词和所述关键词对应的词权重作为训练样本输入至词权重生成模型并对所述词权重生成模型进行训练,直至达到训练停止条件,得到训练完成的词权重生成模型。
将多个目标问题和目标问题对应的关键词与关键词对应的词权重对词权重生成模型进行训练,直至词权重生成模型的损失值小于预设阈值,至此,得到训练完成的词权重生成模型。
步骤S412:获取待处理问题“进行全国人口普查的周期是多长时间?”。
步骤S414:将所述待处理问题输入至训练完成的词权重生成模型。
在获得词权重生成模型后,将待处理问题“进行全国人口普查的周期是多长时间?”输入至所述词权重生成模型中。
步骤S416:获得所述词权重生成模型响应于所述待处理问题作为输入而生成的关键词和每个关键词对应的词权重。
词权重生成模型响应于所述待处理问题“进行全国人口普查的周期是多长时间?”作为输入,生成对应的关键词和关键词的词权重为(进行-0.01,全国-0.03,人口-0.8,普查-0.9,周期-0.5,时间-0.2)。
本申请实施例提供的词权重生成模型训练方法中,包括获取目标问题和所述目标问题对应的目标答案;提取所述目标问题的至少一个关键词组合,根据所述至少一个关键词组合确定初始文档集合;根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合;根据所述目标关键词组合确定所述目标问题中的每个关键词对应的词权重;根据所述目标问题、所述每个关键词和所述每个关键词对应的词权重训练词权重生成模型,直至达到训练停止条件。本申请实施例提供的词权重生成模型训练方法,能够准确地计算目标问题中每个关键词的词权重,进而能够根据所述词权重进行检索并得到所述目标问题对应的答案,有效避免某些垂直领域搭建的数据库中关键词TF-IDF与人的先验知识不匹配的问题。
其次,通过分词与过滤停用词的方式在所述目标问题中提取关键词组合,节省了计算资源,提高了后续根据关键词进行检索的检索效率。
最后,根据目标答案在文档集合中匹配并确定目标文档集合,能够更加准确的确定符合目标答案的文档集合,解决了现有技术中利用人工标注关键词导致的在某些垂直领域内检索答案不准确的问题。
与上述词权重生成模型训练方法实施例相对应,本申请还提供了词权重生成模型训练装置实施例,图5示出了本申请一个实施例的词权重生成模型训练装置的结构示意图。如图5所示,该装置500包括:
第一获取模块502,被配置为获取目标问题和所述目标问题对应的目标答案;
提取模块504,被配置为提取所述目标问题的至少一个关键词组合,根据所述至少一个关键词组合确定初始文档集合;
确定模块506,被配置为根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合;
权重模块508,被配置为根据所述目标关键词组合确定所述目标问题中的每个关键词对应的词权重;
训练模块510,被配置为根据所述目标问题、所述每个关键词和所述每个关键词对应的词权重训练词权重生成模型,直至达到训练停止条件。
可选地,所述提取模块504,被进一步配置为:
提取所述目标问题的至少一个关键词;
根据所述至少一个关键词确定至少一个关键词组合。
可选地,提取所述目标问题的至少一个关键词,包括:
对所述目标问题进行分词处理,得到所述目标问题的至少一个关键词。
可选地,对所述目标问题进行分词处理,得到所述目标问题的至少一个关键词,包括:
对所述目标问题进行分词处理,得到初始关键词集合;
过滤所述初始关键词集合中的停用词,得到所述目标问题的至少一个关键词。
可选地,所述提取模块504,被进一步配置为:
搜索所述每个关键词组合对应的初始文档;
将所述每个关键词组合对应的初始文档组合成为文档集合。
可选地,所述确定模块506,被进一步配置为:
根据所述目标答案和所述文档集合确定目标文档集合;
根据所述目标文档集合确定目标关键词组合。
可选地,根据所述目标答案和所述文档集合确定目标文档集合,包括:
将所述目标答案与所述文档集合中的文档进行匹配;
确定与所述目标答案匹配的文档为目标文档,由所述目标文档组合生成目标文档集合。
可选地,根据所述目标文档集合确定目标关键词组合,包括:
确定所述目标文档集合中每篇目标文档对应的关键词组合为目标关键词组合。
所述权重模块508,被进一步配置为:
获取所述目标关键词组合的数量和所述目标问题中的每个关键词在所述目标关键词组合中的出现次数;
根据所述目标关键词组合的数量和所述目标问题中的每个关键词在所述目标关键词组合中的出现次数确定所述目标问题中的每个关键词对应的词权重。
所述训练模块510,被进一步配置为:
将所述目标问题输入词权重生成模型;
所述词权重生成模型响应于所述目标问题作为输入而生成至少一个预测关键词和所述至少一个预测关键词对应的预测词权重;
根据所述至少一个预测关键词和所述至少一个预测关键词对应的预测词权重与每个目标关键词和每个目标关键词对应的词权重计算损失值;
根据所述损失值调整所述词权重生成模型的参数。
通过本申请实施例提供的一种词权重生成模型训练装置,包括获取目标问题和所述目标问题对应的目标答案;提取所述目标问题的至少一个关键词组合,根据所述至少一个关键词组合确定初始文档集合;根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合;根据所述目标关键词组合确定所述目标问题中的每个关键词对应的词权重;根据所述目标问题、所述每个关键词和所述每个关键词对应的词权重训练词权重生成模型,直至达到训练停止条件。本申请实施例提供的词权重生成模型训练方法,能够准确地计算目标问题中每个关键词的词权重,进而能够根据所述词权重进行检索并得到所述目标问题对应的答案,有效避免某些垂直领域搭建的数据库中关键词TF-IDF与人的先验知识不匹配的问题。
其次,通过分词与过滤停用词的方式在所述目标问题中提取关键词组合,节省了计算资源,提高了后续根据关键词进行检索的检索效率。
最后,根据目标答案在文档集合中匹配并确定目标文档集合,能够更加准确的确定符合目标答案的文档集合,解决了现有技术中利用人工标注关键词导致的在某些垂直领域内检索答案不准确的问题。
上述为本实施例的一种词权重生成模型训练装置的示意性方案。需要说明的是,该词权重生成模型训练装置的技术方案与上述的词权重生成模型训练方法的技术方案属于同一构思,词权重生成模型训练装置的技术方案未详细描述的细节内容,均可以参见上述词权重生成模型训练方法的技术方案的描述。
与上述词权重生成方法实施例相对应,本申请还提供了词权重生成装置实施例,图6示出了本申请一实施例提供的词权重生成装置的结构示意图。如图6所示,该装置600包括:
第二获取模块602,被配置为获取待处理问题;
输入模块604,被配置为将所述待处理问题输入至预先训练好的词权重生成模型,其中,所述词权重生成模型是通过上述所述的词权重生成模型训练方法训练得到的;
生成模块606,被配置为所述词权重生成模型响应于所述待处理问题作为输入而生成至少一个关键词和所述至少一个关键词的对应的词权重。
通过本实施例提供的所述词权重生成模型装置计算得到待回复问题的词权重,保证了可以快速、准确的获取待回复问题中每一个关键词的词权重,确保了可以避免通过人工标注待回复问题中关键词的词权重导致的所述词权重不准确的问题,也有效避免某些垂直领域搭建的数据库中关键词TF-IDF与人的先验知识不匹配的问题。
上述为本实施例的一种词权重生成装置的示意性方案。需要说明的是,该词权重生成装置的技术方案与上述的词权重生成方法的技术方案属于同一构思,词权重生成装置的技术方案未详细描述的细节内容,均可以参见上述词权重生成方法的技术方案的描述。
需要说明的是,装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
本申请一实施例中还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述的词权重生成模型训练方法或所述词权重生成方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的词权重生成模型训练方法或所述词权重生成方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述词权重生成模型训练方法或所述词权重生成方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述词权重生成模型训练方法或所述词权重生成方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的词权重生成模型训练方法或所述词权重生成方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述词权重生成模型训练方法或所述词权重生成方法的技术方案的描述。
本申请实施例公开了一种芯片,其存储有计算机指令,该指令被处理器执行时实现如前所述词权重生成模型训练方法或所述词权重生成方法的步骤。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (15)

1.一种词权重生成模型训练方法,其特征在于,包括:
获取目标问题和所述目标问题对应的目标答案;
提取所述目标问题的至少一个关键词组合,根据所述至少一个关键词组合确定初始文档集合;
根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合;
根据所述目标关键词组合确定所述目标问题中的每个关键词对应的词权重;
根据所述目标问题、所述每个关键词和所述每个关键词对应的词权重训练词权重生成模型,直至达到训练停止条件。
2.如权利要求1所述的方法,其特征在于,提取所述目标问题的至少一个关键词组合,包括:
提取所述目标问题的至少一个关键词;
根据所述至少一个关键词确定至少一个关键词组合。
3.如权利要求2所述的方法,其特征在于,提取所述目标问题的至少一个关键词,包括:
对所述目标问题进行分词处理,得到所述目标问题的至少一个关键词。
4.如权利要求3所述的方法,其特征在于,对所述目标问题进行分词处理,得到所述目标问题的至少一个关键词,包括:
对所述目标问题进行分词处理,得到初始关键词集合;
过滤所述初始关键词集合中的停用词,得到所述目标问题的至少一个关键词。
5.如权利要求1所述的方法,其特征在于,根据所述至少一个关键词组合确定初始文档集合,包括:
搜索所述每个关键词组合对应的初始文档;
将所述每个关键词组合对应的初始文档组合成为初始文档集合。
6.如权利要求1所述的方法,其特征在于,根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合,包括:
根据所述目标答案和所述文档集合确定目标文档集合;
根据所述目标文档集合确定目标关键词组合。
7.如权利要求6所述的方法,其特征在于,根据所述目标答案和所述文档集合确定目标文档集合,包括:
将所述目标答案与所述文档集合中的文档进行匹配;
确定与所述目标答案匹配的文档为目标文档,由所述目标文档组合生成目标文档集合。
8.如权利要求6所述的方法,其特征在于,根据所述目标文档集合确定目标关键词组合,包括:
确定所述目标文档集合中每篇目标文档对应的关键词组合为目标关键词组合。
9.如权利要求1所述的方法,其特征在于,根据所述目标关键词组合确定所述目标问题中的每个关键词对应的词权重,包括:
获取所述目标关键词组合的数量和所述目标问题中的每个关键词在所述目标关键词组合中的出现次数;
根据所述目标关键词组合的数量和所述目标问题中的每个关键词在所述目标关键词组合中的出现次数确定所述目标问题中的每个关键词对应的词权重。
10.如权利要求1所述的方法,其特征在于,根据所述目标问题、所述每个关键词和所述每个关键词对应的词权重训练词权重生成模型,包括:
将所述目标问题输入词权重生成模型;
所述词权重生成模型响应于所述目标问题作为输入而生成至少一个预测关键词和所述至少一个预测关键词对应的预测词权重;
根据所述至少一个预测关键词和所述至少一个预测关键词对应的预测词权重与每个目标关键词和每个目标关键词对应的词权重计算损失值;
根据所述损失值调整所述词权重生成模型的参数。
11.一种词权重生成方法,其特征在于,包括:
获取待处理问题;
将所述待处理问题输入至预先训练好的词权重生成模型,其中,所述词权重生成模型是通过上述权利要求1-10任意一项词权重生成模型训练方法训练得到的;
所述词权重生成模型响应于所述待处理问题作为输入而生成至少一个关键词和所述至少一个关键词的对应的词权重。
12.一种词权重生成模型训练装置,其特征在于,包括:
第一获取模块,被配置为获取目标问题和所述目标问题对应的目标答案;
提取模块,被配置为提取所述目标问题的至少一个关键词组合,根据所述至少一个关键词组合确定初始文档集合;
确定模块,被配置为根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合;
权重模块,被配置为根据所述目标关键词组合确定所述目标问题中的每个关键词对应的词权重;
训练模块,被配置为根据所述目标问题、所述每个关键词和所述每个关键词对应的词权重训练词权重生成模型,直至达到训练停止条件。
13.一种词权重生成装置,其特征在于,包括:
第二获取模块,被配置为获取待处理问题;
输入模块,被配置为将所述待处理问题输入至预先训练好的词权重生成模型,其中,所述词权重生成模型是通过上述权利要求1-10任意一项词权重生成模型训练方法训练得到的;
生成模块,被配置为所述词权重生成模型响应于所述待处理问题作为输入而生成至少一个关键词和所述至少一个关键词的对应的词权重。
14.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-10或者11任意一项所述方法的步骤。
15.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-10或者11任意一项所述方法的步骤。
CN202210067908.9A 2021-07-13 2022-01-20 词权重生成模型训练方法及装置、词权重生成方法及装置 Pending CN114417863A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110791028 2021-07-13
CN2021107910281 2021-07-13

Publications (1)

Publication Number Publication Date
CN114417863A true CN114417863A (zh) 2022-04-29

Family

ID=81276050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210067908.9A Pending CN114417863A (zh) 2021-07-13 2022-01-20 词权重生成模型训练方法及装置、词权重生成方法及装置

Country Status (1)

Country Link
CN (1) CN114417863A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116739003A (zh) * 2023-06-01 2023-09-12 中国南方电网有限责任公司 电网管理智能问答实现方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116739003A (zh) * 2023-06-01 2023-09-12 中国南方电网有限责任公司 电网管理智能问答实现方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109271505B (zh) 一种基于问题答案对的问答系统实现方法
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN107798624B (zh) 一种软件问答社区中的技术标签推荐方法
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN113220832A (zh) 一种文本处理方法及装置
CN117076693A (zh) 一种数字人教师多模态大语言模型预训练学科语料库的构建方法
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN115204156A (zh) 关键词提取方法及装置
CN113157867A (zh) 一种问答方法、装置、电子设备及存储介质
CN111428502A (zh) 一种面向军事语料的命名实体标注方法
CN114138969A (zh) 文本处理方法及装置
CN113159187A (zh) 分类模型训练方法及装置、目标文本确定方法及装置
CN114417863A (zh) 词权重生成模型训练方法及装置、词权重生成方法及装置
CN112989803A (zh) 一种基于主题向量学习的实体链接模型
CN114077655A (zh) 一种答案抽取模型的训练方法及装置
CN114647719A (zh) 一种基于知识图谱的问答方法及装置
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN114003706A (zh) 关键词组合生成模型训练方法及装置
CN111414755A (zh) 一种基于细粒度情感字典的网络情绪分析方法
CN115757723A (zh) 文本处理方法及装置
CN113961686A (zh) 问答模型的训练方法及装置、问答方法及装置
CN113792121B (zh) 阅读理解模型的训练方法及装置、阅读理解方法及装置
CN114943236A (zh) 关键词提取方法及装置
CN113609248A (zh) 词权重生成模型训练方法及装置、词权重生成方法及装置
CN114818727A (zh) 关键句抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination