CN111061853B - 一种快速获取faq模型训练语料的方法 - Google Patents
一种快速获取faq模型训练语料的方法 Download PDFInfo
- Publication number
- CN111061853B CN111061853B CN201911368811.6A CN201911368811A CN111061853B CN 111061853 B CN111061853 B CN 111061853B CN 201911368811 A CN201911368811 A CN 201911368811A CN 111061853 B CN111061853 B CN 111061853B
- Authority
- CN
- China
- Prior art keywords
- standard question
- question
- queue
- standard
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000002372 labelling Methods 0.000 abstract description 6
- 230000008901 benefit Effects 0.000 description 8
- 230000009193 crawling Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种快速获取FAQ模型训练语料的方法,包括以下步骤:获取标准问句队列,从标准问句队列中调取第一个标准问句;将调取的标准问句输入搜索引擎进行搜索,获取搜索结果;对获取到的搜索结果,逐条进行标题抽取操作,将抽取到的标题作为扩写问句;对获取的扩写问句进行存储;判断标准问句队列中是否还有下一个标准问句;调取标准问句队列中下一个标准问句;将存储的所有扩写问句和标准问句放到一块进行聚类操作;对聚类得到的每个簇类进行判断,判断簇类中是否有标准问句,若是,则将该簇类中的扩写问句和标准问句作为FAQ模型训练语料。本发明扩写训练语料效率高,不易受标注人员水平影响,能反映真实语料多样性。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种快速获取FAQ模型训练语料的方法。
背景技术
在智能客服领域,有一种模型叫FAQ模型,主要的功能是将用户的查询问句映射到预先设置好的标准问句,之后返回该标准问句对应的回答给用户,从而完成一次FAQ查询的交互。
例如,系统里面有标准问句:“小金库收益是否复利计算?”;当用户输入“小金库的收益是复利计算的吗”,FAQ模型应当将其映射到“小金库收益是否复利计算?”并返回对应的事先设定好的回答。
通常,企业提供标准的FAQ问答对,然后由语料标注人员根据标准问句句Q扩写出一批语义类似的语料作为训练数据,然后采用有监督学习的方式来训练FAQ模型来回答FAQ问题。这种做法需要标注人员扩写语料,涉及大量人力,成本高,而且依赖于标注人员的写作素质,质量稳定性难以保证。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种快速获取FAQ模型训练语料的方法,以解决人工扩写语料效率低,容易受标注人员水平影响和不能反映真实语料多样性的问题。
为解决上述技术问题,本发明采用的技术方案是:一种快速获取FAQ模型训练语料的方法,包括以下步骤:
步骤一、获取标准问句队列,从标准问句队列中调取第一个标准问句;
步骤二、将调取的标准问句输入搜索引擎进行搜索,获取搜索结果;然后进入步骤三;
步骤三、对获取到的搜索结果,逐条进行标题抽取操作,将抽取到的标题作为扩写问句;对获取的扩写问句进行存储;
步骤四、判断标准问句队列中是否还有下一个标准问句;若是,则进入步骤五;若否,则进入步骤六;
步骤五、调取标准问句队列中下一个标准问句,然后进入步骤二;
步骤六、将存储的所有扩写问句和标准问句放到一块进行聚类操作;
步骤七、对步骤六中聚类得到的每个簇类进行判断,判断簇类中是否有标准问句,若是,则将该簇类中的扩写问句和标准问句作为FAQ模型训练语料。
上述一种快速获取FAQ模型训练语料的方法,还包括步骤八、将步骤七中作为FAQ模型训练语料的扩写问句作为标准问句加入到步骤一中所述的标准问句队列,得到新标准问句队列;
还包括步骤九、判断步骤七中作为FAQ模型训练语料的扩写问句和标准问句的总数量N>M是否成立,M为阈值,若否,则进入步骤十;
还包括步骤十、将步骤八得到的新标准问句队列作为步骤一中获取的标准问句队列执行步骤一至步骤八。
上述一种快速获取FAQ模型训练语料的方法,所述步骤三中进行标题抽取操作时,采用web抓取框架Scrapy。
上述一种快速获取FAQ模型训练语料的方法,所述步骤一和步骤五中,从标准问句队列中删除调取的标准问句。
本发明与现有技术相比具有以下优点:本发明通过利用标准问句在搜索引擎中进行搜索,提取出搜索结果的主题作为扩写问句,能够快速的获取到大量的扩写语料,相比传统标注人员进行创作式的扩写,效率有巨大的提升,并且扩写的语料受标注人员的人为因素影响小,扩写出的语料质量稳定。因搜索结果的主题来源于用户的真实输入,所以采用本发明得到的扩写语料丰富多彩,能够反映实际中的真实语料情况,扩写的语料便于应用在训练FAQ模型中。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明实施例1的方法流程图。
图2为“小金库收益是否复利计算”在百度搜索中的搜索结果。
图3为“京东小金库收益是否复利计算”在百度搜索中的搜索结果。
具体实施方式
一种快速获取FAQ模型训练语料的方法,包括以下步骤:
步骤一、获取标准问句队列,从标准问句队列中调取第一个标准问句;
步骤二、将调取的标准问句输入搜索引擎进行搜索,获取搜索结果;然后进入步骤三;
步骤三、对获取到的搜索结果,逐条进行标题抽取操作,将抽取到的标题作为扩写问句;对获取的扩写问句进行存储;
步骤四、判断标准问句队列中是否还有下一个标准问句;若是,则进入步骤五;若否,则进入步骤六;
步骤五、调取标准问句队列中下一个标准问句,然后进入步骤二;
步骤六、将存储的所有扩写问句和标准问句放到一块进行聚类操作;所述聚类操作通过现有基于密度的聚类方法实现,例如DBSCAN聚类方法;
步骤七、对步骤六中聚类得到的每个簇类进行判断,判断簇类中是否有标准问句,若是,则将该簇类中的扩写问句和标准问句作为FAQ模型训练语料。
本实施例中,还包括步骤八、将步骤七中作为FAQ模型训练语料的扩写问句作为标准问句加入到步骤一中所述的标准问句队列,得到新标准问句队列;
还包括步骤九、判断步骤七中作为FAQ模型训练语料的扩写问句和标准问句的总数量N>M是否成立,M为阈值,若否,则进入步骤十;
还包括步骤十、将步骤八得到的新标准问句队列作为步骤一中获取的标准问句队列执行步骤一至步骤八。
本实施例中,所述步骤三中进行标题抽取操作时,采用web抓取框架Scrapy。(Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。)
本实施例中,所述步骤一和步骤五中,从标准问句队列中删除调取的标准问句。通过删除调取过的标准问句能够减小缓存占用,并且每次调取时只对队列头的标准问句进行调取即可。
下面通过具体案例对本发明进行说明:
假设步骤一中获取的标准问句队列中仅有“小金库收益是否复利计算”一个标准问句;
将该“小金库收益是否复利计算”输入搜索引擎,搜索引擎为现有的搜索引擎,例如百度、谷歌、搜狗等,获取搜索结果;搜索结果如图2所示;
用步骤三所述标题抽取操作,可以抽取到“京东小金库收益是否复利计算”、“京东金融小金库复利计算公式”等扩写问句;
对抽取到的扩写问句、以及原来的标准问句放到一块进行聚类操作;
对聚类得到的每个簇类进行判断,判断簇类中是否有标准问句,若是,则将该簇类中的扩写问句和标准问句作为FAQ模型训练语料;此处聚类后“京东小金库收益是否复利计算”与“小金库收益是否复利计算”在相同的簇类中;则将“京东小金库收益是否复利计算”加入标准问句队列形成新标准问句队列;
当判断作为FAQ模型训练语料的扩写问句和标准问句的总数量N>M是否成立的结果为“否”时,则说明训练语料的数量不够;需要继续扩充,则执行一次步骤十;
将新标准问句队列中的“京东小金库收益是否复利计算”输入搜索引擎,搜索结果如图3所示。可以看到,对于“京东小金库收益是否复利计算”输入搜索引擎,出现了“把钱存入京东小金库,我们的钱该如何计算呢”新的扩写问句。
通过多次执行步骤十,直至步骤九中判断作为FAQ模型训练语料的扩写问句和标准问句的总数量N>M是否成立的结果为“是”时停止。
这样可以快速的获取到大量的FAQ模型训练语料,并且获取到的训练语料大多源自用户真实的表述,质量更高、泛化性也更好。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化,均仍属于本发明技术方案的保护范围内。
Claims (3)
1.一种快速获取FAQ模型训练语料的方法,其特征在于:包括以下步骤:
步骤一、获取标准问句队列,从标准问句队列中调取第一个标准问句;
步骤二、将调取的标准问句输入搜索引擎进行搜索,获取搜索结果;然后进入步骤三;
步骤三、对获取到的搜索结果,逐条进行标题抽取操作,将抽取到的标题作为扩写问句;对获取的扩写问句进行存储;
步骤四、判断标准问句队列中是否还有下一个标准问句;若是,则进入步骤五;若否,则进入步骤六;
步骤五、调取标准问句队列中下一个标准问句,然后进入步骤二;
步骤六、将存储的所有扩写问句和标准问句放到一块进行聚类操作;
步骤七、对步骤六中聚类得到的每个簇类进行判断,判断簇类中是否有标准问句,若是,则将该簇类中的扩写问句和标准问句作为FAQ模型训练语料;
还包括步骤八、将步骤七中作为FAQ模型训练语料的扩写问句作为标准问句加入到步骤一中所述的标准问句队列,得到新标准问句队列;
还包括步骤九、判断步骤七中作为FAQ模型训练语料的扩写问句和标准问句的总数量N>M是否成立,M为阈值,若否,则进入步骤十;
还包括步骤十、将步骤八得到的新标准问句队列作为步骤一中获取的标准问句队列执行步骤一至步骤八。
2.按照权利要求1所述的一种快速获取FAQ模型训练语料的方法,其特征在于:所述步骤三中进行标题抽取操作时,采用web抓取框架Scrapy。
3.按照权利要求1或2所述的一种快速获取FAQ模型训练语料的方法,其特征在于:所述步骤一和步骤五中,从标准问句队列中删除调取的标准问句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911368811.6A CN111061853B (zh) | 2019-12-26 | 2019-12-26 | 一种快速获取faq模型训练语料的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911368811.6A CN111061853B (zh) | 2019-12-26 | 2019-12-26 | 一种快速获取faq模型训练语料的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111061853A CN111061853A (zh) | 2020-04-24 |
CN111061853B true CN111061853B (zh) | 2024-01-12 |
Family
ID=70302917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911368811.6A Active CN111061853B (zh) | 2019-12-26 | 2019-12-26 | 一种快速获取faq模型训练语料的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111061853B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065364A (zh) * | 2021-03-29 | 2021-07-02 | 网易(杭州)网络有限公司 | 意图识别方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009003814A (ja) * | 2007-06-22 | 2009-01-08 | National Institute Of Information & Communication Technology | 質問応答方法及びシステム |
CN106202224A (zh) * | 2016-06-29 | 2016-12-07 | 北京百度网讯科技有限公司 | 搜索处理方法及装置 |
CN107918640A (zh) * | 2017-10-20 | 2018-04-17 | 阿里巴巴集团控股有限公司 | 样本确定方法及装置 |
WO2018157700A1 (zh) * | 2017-03-02 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 对话生成方法、装置及存储介质 |
CN109033390A (zh) * | 2018-07-27 | 2018-12-18 | 深圳追科技有限公司 | 自动生成相似问句的方法和装置 |
CN110096580A (zh) * | 2019-04-24 | 2019-08-06 | 北京百度网讯科技有限公司 | 一种faq对话方法、装置及电子设备 |
CN110309289A (zh) * | 2019-08-23 | 2019-10-08 | 深圳市优必选科技股份有限公司 | 一种句子生成方法、句子生成装置及智能设备 |
-
2019
- 2019-12-26 CN CN201911368811.6A patent/CN111061853B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009003814A (ja) * | 2007-06-22 | 2009-01-08 | National Institute Of Information & Communication Technology | 質問応答方法及びシステム |
CN106202224A (zh) * | 2016-06-29 | 2016-12-07 | 北京百度网讯科技有限公司 | 搜索处理方法及装置 |
WO2018157700A1 (zh) * | 2017-03-02 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 对话生成方法、装置及存储介质 |
CN107918640A (zh) * | 2017-10-20 | 2018-04-17 | 阿里巴巴集团控股有限公司 | 样本确定方法及装置 |
CN109033390A (zh) * | 2018-07-27 | 2018-12-18 | 深圳追科技有限公司 | 自动生成相似问句的方法和装置 |
CN110096580A (zh) * | 2019-04-24 | 2019-08-06 | 北京百度网讯科技有限公司 | 一种faq对话方法、装置及电子设备 |
CN110309289A (zh) * | 2019-08-23 | 2019-10-08 | 深圳市优必选科技股份有限公司 | 一种句子生成方法、句子生成装置及智能设备 |
Non-Patent Citations (2)
Title |
---|
Epistemic stance and the construction of knowledge in science writing: A diachronic corpus study;Robert Poole, Andrew Gnann,Gus Hahn-Powell;Journal of English for Academic Purposes;第42卷;全文 * |
结合问句相关度计算的FAQ系统设计;胡阔慧;;商(第21期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111061853A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021103492A1 (zh) | 一种企业经营风险预测方法和系统 | |
Hedges et al. | Academic crowdsourcing in the humanities: Crowds, communities and co-production | |
Scheu et al. | The legacy of the Olympic Games: A review | |
CN106156365A (zh) | 一种知识图谱的生成方法及装置 | |
CN109002492B (zh) | 一种基于LightGBM的绩点预测方法 | |
CN111177322A (zh) | 一种领域知识图谱的本体模型构建方法 | |
WO2020010834A1 (zh) | 一种faq问答库泛化方法、装置及设备 | |
CN106202207A (zh) | 一种基于HBase‑ORM的索引及检索系统 | |
US12008047B2 (en) | Providing an object-based response to a natural language query | |
CN111078893A (zh) | 一种大规模高效获取识别对话意图用语料的方法 | |
CN113742488B (zh) | 基于多任务学习的嵌入式知识图谱补全方法和装置 | |
CN117743601B (zh) | 一种自然资源知识图谱补全方法、装置、设备及介质 | |
CN106897123A (zh) | 数据库操作方法及装置 | |
CN111061853B (zh) | 一种快速获取faq模型训练语料的方法 | |
US10754861B2 (en) | System and method for content affinity analytics | |
CN112395401A (zh) | 自适应负样本对采样方法、装置、电子设备及存储介质 | |
CN117035078A (zh) | 一种多模态知识图谱统一表示学习框架 | |
Pujadas-Mora et al. | The Barcelona Historical Marriage Database and the Baix Llobregat Demographic Database. From algorithms for handwriting recognition to individual-level demographic and socioeconomic data | |
Li | [Retracted] A Data Mining‐Based Method for Quality Assessment of Ideological and Political Education in Universities | |
CN114756685A (zh) | 一种投诉单的投诉风险识别方法及装置 | |
CN114691892A (zh) | 一种基于大数据的退役军人职业规划方法及系统 | |
CN107562909A (zh) | 一种融合搜索与计算的大数据分析系统及其分析方法 | |
CN113780438A (zh) | 一种基于大数据的科技项目申报辅导系统 | |
CN113222471A (zh) | 一种基于新媒体数据的资产风控方法及设备 | |
CN112052365A (zh) | 一种跨境场景画像构建方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |