CN114003714B - 一种文档上下文感知的智能知识推送方法 - Google Patents

一种文档上下文感知的智能知识推送方法 Download PDF

Info

Publication number
CN114003714B
CN114003714B CN202111565963.2A CN202111565963A CN114003714B CN 114003714 B CN114003714 B CN 114003714B CN 202111565963 A CN202111565963 A CN 202111565963A CN 114003714 B CN114003714 B CN 114003714B
Authority
CN
China
Prior art keywords
information
paragraph
user
context
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111565963.2A
Other languages
English (en)
Other versions
CN114003714A (zh
Inventor
黄永刚
郑允波
尹琼
韩亚辉
薛凯
陈超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Beijing Institute of Near Space Vehicles System Engineering
Original Assignee
Beijing Institute of Technology BIT
Beijing Institute of Near Space Vehicles System Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT, Beijing Institute of Near Space Vehicles System Engineering filed Critical Beijing Institute of Technology BIT
Priority to CN202111565963.2A priority Critical patent/CN114003714B/zh
Publication of CN114003714A publication Critical patent/CN114003714A/zh
Application granted granted Critical
Publication of CN114003714B publication Critical patent/CN114003714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Abstract

本发明涉及一种文档上下文感知的智能知识推送方法,属于知识推送技术领域,旨在让用户在进行模板文档编辑时能够更加高效地获取信息、更加准确地进行知识推送。本方法在进行知识推送的时候,将用户编辑位置的上下文信息作为推送依据,而非传统的关键词信息,充分利用了用户的编辑上下文信息。将推送工具集成到文档编辑软件中,使用被动式推送的方法进行知识推送。与现有技术方法相比,本方法将推知识荐工具与编辑工具高度集成,为用户文档编辑带来更好的体验,提高了文档编辑效率。同时,本方法通过监听用户编辑位置变化,结合关键词信息和段落信息,做出更精确的推送。

Description

一种文档上下文感知的智能知识推送方法
技术领域
本发明涉及一种智能知识推送方法,具体涉及一种文档上下文感知的智能知识推送方法,属于知识推送技术领域。
背景技术
模板文档是一种在工程实践中总结出来,并对同类工作具有指导作用的文档,是工程项目中的重要产出之一。此类文档通常具有固定的段落结构,因此,用户在编辑模板文档时,只需根据模板预定的段落结构填充模板文档中的内容即可。通常,用户在编辑模板文档时需要参考诸多相关联的知识,例如一些标准规范、故障案例、设计准则、工程图纸等,因此,用户通常需要使用一种高效的知识推荐工具用于辅助文档写作。
目前,现有的知识推送技术,其原理根据推送方式划分,可以分为两类:
(1)主动式检索。此类技术需要用户输入检索关键词,然后根据用户的输入匹配相关的知识,例如基于浏览器的知识文档推送、基于文献管理工具的知识文档推送等。
(2)被动式推送。此类技术能够识别用户在文档编辑时的一些动作,例如划取关键字。被动式检索基于划取的关键字进行知识检索,例如Word加载项Wikipedia、Keenious等。
其中,主动式检索,一般需要浏览器或第三方软件支持,这就需要用户的焦点在文档编辑工具和知识推送工具间不断切换。在知识推送工具中输入关键词进行检索,且检索结果需要用户根据文档上下文进一步筛选。这就导致用户时间成本高,且使用体验差。
将知识推送系统作为插件嵌入到文档编辑软件中,采用被动式推送,可以有效地避免用户进行知识检索时的焦点切换问题,能够给文档编辑者带来更好的交互体验。但是,现有的推送方法均停留在捕获关键字角度,忽略了文档上下文信息。例如Wikipedia中,用户在不同段落划取相同的词语,其推送的知识是相同的,其推送时没有结合文档上下文信息。
发明内容
本发明的目的是为了让用户在进行模板文档写作时能够更加高效地获取信息、更加准确地进行知识推送,创造性地提出了一种文档上下文感知的智能知识推送方法。
本方法的创新点在于:在进行知识推送的时候,充分利用了用户编辑位置的上下文信息,将其作为重要的推送依据,而非传统方法一样只考虑关键词信息。将推送工具集成到文档编辑软件中,使用被动式推送的方法进行知识推送。
本发明采用以下技术方案实现。
一种文档上下文感知的智能知识推送方法,包括以下步骤:
首先,通过事件监听,感知用户在上下文中的输入位置;当用户输入位置发生变化时,使用感知API(Application Programming Interface,应用程序接口)实现用户在模板中编辑位置的监听,获得上下文信息;用户在文档中每一次点击都会被感知到,当点击位置发生改变时,监听程序会将位置信息作为参数传入到感知API 中。
然后,根据获得的上下文信息,匹配段落信息和关键词信息。
最后,根据得到的段落信息和关键词信息,进行知识推送。
有益效果
本发明方法,与现有技术方法相比,具有如下优点:
1.本方法提高了文档编辑效率。将知识推荐工具与文档编辑工具高度集成,为用户文档编辑带来更好的体验,提高文档编辑效率。
2.本方法实现了实时、准确的知识推送。通过监听用户编辑位置变化,结合关键词信息和段落信息,做出更准确的推送。
附图说明
图1是本发明方法的整体流程图;
图2是本发明方法步骤2.1中构建的章节树示例;
图3是本发明方法上下文信息解析成段落信息的流程图。
具体实施方式
为了便于本领域普通技术人员的理解和实施本发明,下面结合附图及实施例对本发明做进一步说明和详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,一种文档上下文感知的智能知识推送方法,包括以下步骤:
步骤1:通过事件监听(比如监听用户鼠标动作),感知用户在上下文中的输入位置。当用户输入位置发生变化时,感知API获得上下文信息。
具体地,调用文档编辑软件API,实现用户在模板中编辑位置的监听。例如,通过AddEventListener (eventName, callback)函数,在系统中添加自定义事件,当事件eventName发生时,执行回调函数callback。
例如,在系统中添加“click”事件,用户在文档中每一次点击都会被感知到。当点击位置发生改变时,监听程序就会将位置信息作为参数传入到感知API 中。由感知API处理后,将上下文信息用于上下文匹配。
但是,有些文档编辑器或某些版本不支持API,因此,需要寻找其他的方法实现用户动作的监听。考虑到监听行为不能妨碍系统正常进行,可以使用JavaScript中模拟多线程的Web Worker技术来实现监听功能,该技术可以在后台创建执行脚本而不干扰用户界面。Web Worker的工作方式为:当系统启动时,在主线程中创建监听线程,开始监听用户光标所在的位置信息。在主线程与监听线程之间,通过数据监听事件进行通信,每间隔一段时间(如500ms)监听线程会触发一次数据监听事件,并将用户当前位置信息作为参数发送到主线程。若此时感知API识别到当前位置对比上次的位置发生了变化,就会获取当前位置的上下文信息。
步骤2:根据步骤1中的上下文信息,匹配段落信息和关键词信息。
具体地,本发明给出步骤2的一种具体实现方法,包括以下步骤:
步骤2.1:将现有章节标题构建章节树。
章节树可以通过递归方式构建。首先,遍历所有标题,将标题名作为键,其子节点的列表作为值保存到哈希表中。然后,使用递归算法,从一级标题节点开始,将所有的子节点连接到根节点上,再将子节点作为父节点重复该操作,直到碰到叶子节点,也就是子节点为空的节点为止,跳出递归。最后,得到所有以一级标题为根节点的标题森林。如图2所示。
将这个标题森林保存,以便在每次进行上下文匹配的时候使用。
步骤2.2:上下文信息解析出段落信息。
所述段落信息是指包含当前位置每一级别标题名构成的列表。在进行上下文解析时,先获得各段落的标题等级和章节信息,借助这些信息通过递归的方式,依次向前查找各等级段落的标题,直到获得最高等级标题或段落为空为止。如图3所示。
步骤2.3:根据段落信息,在标题森林中匹配出当前段落标识符并得到关键词信息。
前两步得到的章节树和标题列表,均是以章节标题为依据构建,因此,需要在章节树种匹配标题列表。
具体地,可以将段落信息视为章节树上的一条路径,则上下文匹配简化成路径匹配问题。使用在树结构上的路径匹配算法,得到段落信息在树上的节点,能够从节点上读取到当前段落标识符。
关键词信息可以使用多种获取方式。例如,获取用户编辑位置所在段落的文本,使用自然语言处理中的关键词提取技术计算出关键词。或者,获取用户编辑的句子及其上下文各一个句子,再从中提取关键词。还可以由用户自定义段落的关键词,将关键词与段落信息绑定,这样在匹配到标题森林上的节点后便可以同时获得关键词信息。关键字还可以由用户采用鼠标选取的方式获取。
步骤3:根据步骤2中得到的段落信息和关键词信息,进行知识推送。
服务器按照步骤2.1构建的章节树来组织知识。在章节结点下,基于关键字对知识进行索引。
客户端使用段落标识符和关键词数据,向后台服务器提出请求。在服务器内部,首先根据段落标识符匹配到相应的章节,然后在章节结点下基于关键字进行知识检索。
这些知识数据可能会有不同的数据结构,为了到最佳的展示效果,在进行知识推送时,可以先对这些数据进行数据结构转换,再使用不同的页面组件将其显示出来。
实施例
本实施例详细阐述了本发明方法的工作过程。
如图1所示,一种文档上下文感知的智能知识推送方法,包括以下步骤:
步骤1:开启用户鼠标动作的事件监听,感知用户在上下文中的位置,在位置发生变化时生成上下文信息。
步骤2:根据步骤1中的上下文信息匹配段落信息和关键词信息。包括以下步骤:
步骤2.1:将现有章节标题构建章节树;
步骤2.2:上下文信息解析出段落信息;
例如,根据上下文信息解析段落信息的JavaScript代码如下:
selectionChange() {
let res = wps.WpsApplication().Selection
let selectText = res.Text;
if (selectText.length > 1) {
this.selectText = selectText.slice(0, 200)
} else {
if (res.Document.Name != this.mainTemplate) return;
let level1 = "", level2 = "", level3 = "";
this.getHeadingDone = false;
let paragraph = res.Paragraphs.First;
while (!this.getHeadingDone) {
if (paragraph.Style.NameLocal.indexOf(TitleLevel1) != -1) {
if (paragraph.Style.NameLocal.indexOf(TitleLevel2) != -1 && !level3) {
level3 = paragraph.Range.Text;
} else if (paragraph.Style.NameLocal.indexOf(TitleLevel2) !=-1 && !level2) {
level2 = paragraph.Range.Text;
} else if (paragraph.Style.NameLocal.indexOf(TitleLevel1) !=-1 && !level1) {
level1 = paragraph.Range.Text;
this.getHeadingDone = true;
}
}
paragraph = paragraph.Previous();
}
}
return {
level1,
level2,
level3
}
}
步骤2.3:根据段落信息在标题森林中匹配出当前段落标识符并得到关键词信息。
步骤3:根据步骤2中得到的段落标识符和关键词信息进行知识推送。
应当理解的是,以上所述针对本发明较佳实施例的描述较为详细,并不能因此认为本发明的保护范围仅局限于上述实施例和附图所公开的内容,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

Claims (7)

1.一种文档上下文感知的智能知识推送方法,其特征在于,包括以下步骤:
首先,通过事件监听,感知用户在上下文中的输入位置;当用户输入位置发生变化时,使用感知API实现用户在模板中编辑位置的监听,获得上下文信息;用户在文档中每一次点击都会被感知到,当点击位置发生改变时,监听程序会将位置信息作为参数传入到感知API中;
然后,根据获得的上下文信息,匹配段落信息和关键词信息,包括以下步骤:
步骤2.1:将现有章节标题构建章节树,章节树通过递归方式构建;
首先,遍历所有标题,将标题名作为键,其子节点的列表作为值保存到哈希表中;然后,使用递归算法,从一级标题节点开始,将所有的子节点连接到根节点上,再将子节点作为父节点重复该操作,直到碰到叶子节点,也就是子节点为空的节点为止,跳出递归;最后,得到所有以一级标题为根节点的标题森林;
将这个标题森林保存,以便在每次进行上下文匹配的时候使用;
步骤2.2:上下文信息解析出段落信息;
所述段落信息是指包含当前位置每一级别标题名构成的列表;在进行上下文解析时,先获得各段落的标题等级和章节信息,借助这些信息通过递归的方式,依次向前查找各等级段落的标题,直到获得最高等级标题或段落为空为止;
步骤2.3:根据段落信息,在标题森林中匹配出当前段落标识符并得到关键词信息;
将段落信息视为章节树上的一条路径,则上下文匹配简化成路径匹配问题;使用在树结构上的路径匹配算法,得到段落信息在树上的节点,能够从节点上读取到当前段落标识符;
最后,根据得到的段落信息和关键词信息,进行知识推送。
2.如权利要求1所述的一种文档上下文感知的智能知识推送方法,其特征在于,使用JavaScript中模拟多线程的Web Worker技术实现监听功能,工作方式为:当系统启动时,在主线程中创建监听线程,开始监听用户光标所在的位置信息;在主线程与监听线程之间,通过数据监听事件进行通信,每隔一段时间监听线程会触发一次数据监听事件,并将用户当前位置信息作为参数发送到主线程;若此时感知API识别到当前位置对比上次的位置发生了变化,就会获取当前位置的上下文信息。
3.如权利要求1所述的一种文档上下文感知的智能知识推送方法,其特征在于,进行知识推送时,客户端使用段落标识符和关键词信息,向后台服务器提出请求;在服务器内部,首先根据段落标识符匹配到相应的章节,然后在章节结点下基于关键字进行知识检索。
4.如权利要求1所述的一种文档上下文感知的智能知识推送方法,其特征在于,步骤2获取关键词信息时,获取用户编辑位置所在段落的文本。
5.如权利要求1所述的一种文档上下文感知的智能知识推送方法,其特征在于,步骤2获取关键词信息时,获取用户编辑的句子及其上下文各一个句子,然后使用自然语言处理中的关键词提取技术计算出关键词。
6.如权利要求1所述的一种文档上下文感知的智能知识推送方法,其特征在于,步骤2获取关键词信息时,由用户自定义段落的关键词,将关键词与段落信息绑定。
7.如权利要求1所述的一种文档上下文感知的智能知识推送方法,其特征在于,步骤2获取关键词信息时,由用户采用鼠标选取的方式自行选择关键词。
CN202111565963.2A 2021-12-21 2021-12-21 一种文档上下文感知的智能知识推送方法 Active CN114003714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111565963.2A CN114003714B (zh) 2021-12-21 2021-12-21 一种文档上下文感知的智能知识推送方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111565963.2A CN114003714B (zh) 2021-12-21 2021-12-21 一种文档上下文感知的智能知识推送方法

Publications (2)

Publication Number Publication Date
CN114003714A CN114003714A (zh) 2022-02-01
CN114003714B true CN114003714B (zh) 2022-03-25

Family

ID=79931909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111565963.2A Active CN114003714B (zh) 2021-12-21 2021-12-21 一种文档上下文感知的智能知识推送方法

Country Status (1)

Country Link
CN (1) CN114003714B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180036460A (ko) * 2016-09-30 2018-04-09 주식회사 솔트룩스 문서 작성을 위한 능동적 지식 추천 시스템 및 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2602723A1 (en) * 2011-12-08 2013-06-12 ExB Asset Management GmbH Asynchronous, passive knowledge sharing system and method
CN105354339B (zh) * 2015-12-15 2018-08-17 成都陌云科技有限公司 基于上下文的内容个性化提供方法
CN110377715A (zh) * 2019-07-23 2019-10-25 天津汇智星源信息技术有限公司 基于法律知识图谱的推理式精准智能问答方法
CN113705180A (zh) * 2021-09-14 2021-11-26 成都卡莱博尔信息技术股份有限公司 一种文档编审方法、装置、电子设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180036460A (ko) * 2016-09-30 2018-04-09 주식회사 솔트룩스 문서 작성을 위한 능동적 지식 추천 시스템 및 방법

Also Published As

Publication number Publication date
CN114003714A (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
CN108829858B (zh) 数据查询方法、装置及计算机可读存储介质
CN109726274B (zh) 问题生成方法、装置及存储介质
Papadakis et al. Stavies: A system for information extraction from unknown web data sources through automatic web wrapper generation using clustering techniques
JP4953468B2 (ja) オントロジーデータのインポート/エクスポートのための方法および装置
CN111079043B (zh) 一种关键内容定位方法
JP5370159B2 (ja) 情報抽出装置及び情報抽出システム
TW201514845A (zh) 從網頁擷取標題及主體
CN111913693A (zh) 一种服务接口子类模板确定方法与系统
CN111723192B (zh) 代码推荐方法和装置
CN103838862A (zh) 一种视频搜索的方法、装置及终端
CN115358200A (zh) 一种基于SysML元模型的模板化文档自动生成方法
CN115687572A (zh) 一种数据信息的检索方法、装置、设备及存储介质
CN113419721B (zh) 基于web的表达式编辑方法、装置、设备和存储介质
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
CN112732969A (zh) 图像语义分析方法、装置、存储介质及电子设备
CN101782924A (zh) 信息处理方法、信息处理设备和程序
CN114003714B (zh) 一种文档上下文感知的智能知识推送方法
CN111158973A (zh) 一种web应用动态演化监测方法
CN106326314B (zh) 网页信息抽取方法及装置
CN116795968A (zh) 一种基于Chat LLM技术的知识扩展及QA系统
CN106991144B (zh) 一种定制数据爬取工作流的方法及系统
JP2012059212A (ja) 抽出装置、抽出方法及び抽出プログラム
Kaddu et al. To extract informative content from online web pages by using hybrid approach
KR20140147438A (ko) 마크업 파싱 장치, 방법 및 기록 매체
CN113190753B (zh) 数据采集方法和装置、电子设备、计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant