CN102591475B - 一种在线编辑器的内容输入方法及系统 - Google Patents

一种在线编辑器的内容输入方法及系统 Download PDF

Info

Publication number
CN102591475B
CN102591475B CN201110450266.2A CN201110450266A CN102591475B CN 102591475 B CN102591475 B CN 102591475B CN 201110450266 A CN201110450266 A CN 201110450266A CN 102591475 B CN102591475 B CN 102591475B
Authority
CN
China
Prior art keywords
keyword
resource information
user
content
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110450266.2A
Other languages
English (en)
Other versions
CN102591475A (zh
Inventor
李天华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110450266.2A priority Critical patent/CN102591475B/zh
Publication of CN102591475A publication Critical patent/CN102591475A/zh
Application granted granted Critical
Publication of CN102591475B publication Critical patent/CN102591475B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供了一种在线编辑器的内容输入方法及系统,该方法包括:步骤S1、对用户输入的内容进行检测,判断所述用户输入的内容是否符合预设的触发事件,如果是,则执行步骤S2;步骤S2、利用用户输入的内容与已有资源库中的资源信息进行匹配,将匹配到的资源信息,形成关联资源集合;步骤S3、将所述关联资源集合中的资源信息显示给用户,供用户进行选择输入。相较于现有技术,本发明能够对编辑内容进行自动匹配,为用户提供相关资源的链接,节省用户时间,提高编辑效率,同时对编辑内容的提醒有助于完善编辑内容,提高编辑的质量,减少遗漏,使编辑内容更加完善、准确。

Description

一种在线编辑器的内容输入方法及系统
【技术领域】
本发明涉及互联网应用技术领域,特别涉及一种在线编辑器的内容输入方法及系统。
【背景技术】
在线编辑器是通过联机方式在浏览器中直接编辑文本、网页等特定格式的编辑器,包括网页编辑器,网络日志/博客编辑器,文档编辑器,在线office等等。比如百度百科的词条创建、修改的过程中,就使用的是在线编辑器。比如,谷歌的在线Office、ZOHOWriter在线编辑器等支持云服务的编辑器。
现有的在线编辑器,大多采用直接输入、拷贝、粘贴的输入方式为主,当需要插入图片、链接或者参考资料等第三方资源时,都是采用控件的方式,点击对应预先部署好的按钮,在弹出的编辑面板上编辑,进行第三方资源的输入。这种编辑方式无法提供给用户相关资源的链接,很难起到提示作用,需要用户自行查找相关资源,使得用户的编辑效率较低,无法快速编辑。
【发明内容】
本发明提供了一种在线编辑器的内容输入方法及系统,能够对编辑内容进行自动匹配,为用户提供相关资源的链接,节省用户时间,提高编辑效率,同时对编辑内容的提醒有助于完善编辑内容,提高编辑的质量,减少遗漏,使编辑内容更加完善、准确。
具体技术方案如下:
一种在线编辑器的内容输入方法,该方法包括:
步骤S1、对用户输入的内容进行检测,判断所述用户输入的内容是否符合预设的触发事件,如果是,则执行步骤S2;
步骤S2、利用用户输入的内容与已有资源库中的资源信息进行匹配,将匹配到的资源信息,形成关联资源集合;
步骤S3、将所述关联资源集合中的资源信息显示给用户,供用户进行选择输入。
根据本发明一优选实施例,所述步骤S2具体包括:
步骤S2_1、对用户输入的内容进行分词,得到关键词;
步骤S2_2、利用所述关键词在已有资源库中进行检索,根据所述关键词与已有资源库中资源信息的相关度大小,得到与所述关键词相匹配的资源信息。
根据本发明一优选实施例,所述步骤S2_1得到关键词后,还包括:基于词项的倒文档率或者词频-倒文档率计算各关键词的权值,根据所述关键词的权值对关键词进行过滤,将过滤后的关键词供给后续步骤S2_2进行检索。
根据本发明一优选实施例,在计算得到所述各关键词的权值之后,还包括:对关键词的权值进行调权处理,将能够与可信度高的网站资源信息相匹配的关键词的权值调高。
根据本发明一优选实施例,还包括:步骤S2_3、根据所述相关度大小对所述匹配的资源信息进行排序,将满足预设要求的资源信息构成关联资源集合。
根据本发明一优选实施例,所述步骤S3具体包括:
将能够与所述关联资源集合相匹配的各个关键词进行特殊标记显示,并生成对应的预览提示按钮;
对于特殊标记显示的关键词,从所述关联资源集合中选取与该关键词相匹配的资源信息,生成对应的选择操作界面的内容;
当用户点击或划过所述预览提示按钮时,弹出与该关键词对应的选择操作界面进行显示,供用户进行选择输入对应的内容。
根据本发明一优选实施例,所述选择操作界面中的资源信息按照预设的分类方式进行显示。
根据本发明一优选实施例,该方法还包括:对用户选择输入的内容进行编辑。
根据本发明一优选实施例,该方法还包括:预先利用已有资源库建立词条与对应资源信息的数据映射表;
步骤S2对用户输入的内容进行分词得到的关键词,根据所述关键词与所述数据映射表中各词条的相关度大小,得到与所述关键词相匹配的词条,构成关联词集合;
步骤S3将所述关联词集合中的词条在所述数据映射表中对应的资源信息显示给用户。
根据本发明一优选实施例,所述步骤S2基于词条的语义相关性计算得到各词条与所述关键词的相关度。
一种在线编辑器的内容输入装置,该装置包括:
检测模块,用于对用户输入的内容进行检测,判断所述用户输入的内容是否符合预设的触发事件,触发匹配模块;
匹配模块,用于受到所述检测模块触发时,利用用户输入的内容与已有资源库中的资源信息进行匹配,将匹配到的资源信息,形成关联资源集合;
显示模块,用于将所述关联资源集合中的资源信息显示给用户,供用户进行选择输入。
根据本发明一优选实施例,所述匹配模块具体包括:
分词单元,用于对用户输入的内容进行分词,得到关键词;
检索单元,用于利用所述分词单元得到的关键词到已有资源库中进行检索,根据所述关键词与已有资源库中资源信息的相关度大小,得到与所述关键词相匹配的资源信息。
根据本发明一优选实施例,所述分词单元基于词项的倒文档率或者词频-倒文档率计算各关键词的权值,根据所述关键词的权值对关键词进行过滤,将过滤后的关键词供给所述检索模块进行检索。
根据本发明一优选实施例,所述分词单元在计算得到所述各关键词的权值之后,还包括:对关键词的权值进行调权处理,将能够与可信度高的网站资源信息相匹配的关键词的权值调高。
根据本发明一优选实施例,所述匹配模块还包括:
排序单元,用于根据所述相关度大小对所述匹配的资源信息进行排序,将满足预设要求的资源信息构成关联资源列表。
根据本发明一优选实施例,所述显示模块具体包括:
提示按钮生成单元,用于将能够与所述关联资源集合相匹配的各个关键词进行特殊标记显示,并生成对应的预览提示按钮;
操作界面生成单元,用于对于特殊标记显示的关键词,从所述关联资源集合中选取与该关键词相匹配的资源信息,生成对应的选择操作界面的内容;
弹出显示单元,用于当用户点击或划过所述预览提示按钮时,弹出与该关键词对应的选择操作界面进行显示,供用户进行选择输入对应的内容。
根据本发明一优选实施例,所述选择操作界面中的资源信息按照预设的分类方式进行显示。
根据本发明一优选实施例,还包括:编辑模块,用于对用户选择输入的内容进行编辑。
根据本发明一优选实施例,该系统还包括:数据映射表建立模块,用于预先利用已有资源库建立词条与对应资源信息的数据映射表;
所述匹配模块对用户输入的内容进行分词得到的关键词,根据所述关键词与所述数据映射表中各词条的相关度大小,得到与所述关键词相匹配的词条,构成关联词集合;
所述显示模块将所述关联词集合中的词条在所述数据映射表中对应的资源信息显示给用户。
根据本发明一优选实施例,所述匹配模块基于词条的语义相关性计算得到各词条与所述关键词的相关度。
由以上技术方案可以看出,本发明提供的在线编辑器的内容输入方法及系统,实现了编辑内容自动匹配、提示、预览与键入支持的功能,为用户提供相关资源的链接,用于辅助引导用户编辑输入,节省用户时间,提高编辑效率,同时对编辑内容的提醒也有助于完善编辑内容,提高编辑的质量,减少遗漏,使编辑内容更加完善、准确。
【附图说明】
图1为本发明实施例一提供的在线编辑器的内容输入方法流程图;
图2为本发明实施例一提供的利用用户输入的内容进行匹配的流程图;
图3为本发明实施例二提供的数据映射表中词条与数据信息的对应关系示意图;
图4为本发明实施例三提供的在线编辑器的内容输入方法流程图;
图5为本发明实施例三提供的关键词进行高亮显示的效果示意图;
图6为本发明实施例三提供的弹出选择操作界面的效果示意图;
图7为本发明实施例三提供的选择输入资源信息后的效果示意图;
图8为本发明实施例四提供的在线编辑器的内容输入系统结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、
图1是本实施例提供的在线编辑器的内容输入方法流程图,如图1所示,该方法包括:
步骤S101、对用户输入的内容进行检测,判断所述用户输入的内容是否符合预设的触发事件,如果是,则执行步骤S102。
所述预设的触发事件是预先定义好的触发事件,可以采用键盘按键或按键组合的方式定义触发事件,比如采用回车键进行触发;或者,采用输入字符的停顿时间超过预设时间阈值,比如停顿时间大于5秒时则触发。
当未检测到预设的触发事件时,本发明的内容输入方式和编辑方式与通用的在线编辑器相同。当检测判断到用户的输入是预设的触发事件,如用户在键盘上输入回车键时,则获取用户输入的内容。
步骤S102、利用用户输入的内容与已有资源库进行匹配,将匹配到的资源信息,形成关联资源集合。
进行匹配所采用的所述用户输入的内容,可以是预设的触发事件之前的一个词、一句话或者一段话。例如,用户在输入“北京西苑”后,输入预设的触发事件“回车键”后,则利用用户输入的内容“北京西苑”进行匹配。
用户输入的内容也可以是用户输入预设的触发事件之前选取的内容。当用户选取特定内容(例如某一词句或者语段)后,触发预设的触发事件(如按回车键)时,则利用该用户选取的特定内容进行匹配。
所述资源信息包括但不限于词条名称、简介、类型、链接、地理位置、图片、视频和/或剧情。
图2是本实施例利用用户输入的内容进行匹配的流程图,如图2所示,具体包括以下步骤:
步骤S201、对所述用户输入的内容进行分词,得到关键词。
采用现有的分词方法进行分词,例如可以采用正向最大匹配法进行大粒度分词,同时采用正向最小匹配法进行小粒度分词,得到词项。以“北京西苑的风景”为例,分词结果得到词项,包括:“北京”、“西苑”、“北京西苑”、“的”和“风景”。在分词后,采用现有过滤方法,过滤掉标点符号及停用词,得到关键词“北京”、“西苑”、“北京西苑”和“风景”。
为了提高效率,对得到关键词进行进一步的过滤处理,将过滤后的关键词供给后续步骤S202。特别是当得到的关键词词数较多时,效果较为明显。具体地包括:
先基于词项的倒文档率或者词频-倒文档率(TF-IDF)计算各关键词的权值,将能够与可信度高的网站资源信息相匹配的关键词赋予较高权值。
在确定是否能够与可信度高的网站资源信息相匹配时,可以将可信度高的资源信息对应的词条形成预设的词条列表,再判断关键词是否在所述词条列表中,如果在,则能够相匹配,否则,不相匹配。如,将能够与百科词条资源信息相匹配的关键词优先。
再根据各关键词的权值进行排序和过滤处理,去掉关键词的权值小于预设阈值的关键词。例如,“风景”这个关键词的倒文档率较小,即表意能力较差,计算得到的权值可能小于预设阈值,则经过本操作的处理之后将会被过滤掉。
步骤S202、利用所述关键词在已有资源库中进行检索,根据所述关键词与已有资源库中资源信息的相关度大小,得到与所述关键词相匹配的资源信息。
所述已有资源库可以是先前通过搜索引擎从网络中抓取回来的存储于服务器上的数据资源信息,也可以是现时利用搜索引擎从网络中抓取回来的数据资源信息。
利用关键词通过检索抽取匹配的资源信息,其中抽取资源信息的方法可以结合一定的抽取优先级策略进行,例如,采用现有的深度优先策略(DFS)或广度优先策略(BFS)等优先级策略进行资源信息的抓取。
所述关键词与匹配的资源信息的相关度,可以但不限于采用词与文档之间的相关度的计算方法来计算。具体包括:
利用关键词作为搜索词到搜索引擎中进行搜索,选取前X个页面的搜索结果,并对每个页面的内容进行分词并计算分词的TF-IDF作为各个分词的权值,再选取权值排在前Y个的分词作为所述关键词的特征向量。同样地,将匹配的资源信息进行分词并计算分词的TF-IDF作为各个分词的权值,再选取权值排在前Y个的分词作为所述资源信息的特征向量。然后,计算关键词的特征向量和资源信息的特征向量之间的相似度作为所述关键词和资源信息之间的相关度,两个特征向量之间的相似度可以采用余弦相似度或者内积而得到。
步骤S203、根据所述相关度大小对所述匹配的资源信息进行排序,将满足预设要求的资源信息构成关联资源集合。
所述满足预设要求包括:资源相关度排在前N个,N为预设正整数;或者,资源相关度大于预设相关度阈值。例如,选取相关度排在前20的资源信息构成关联资源集合。
另外,可以将得到的关联资源集合以关联资源列表的形式存储于系统的缓存(memcache)中,便于后续进行显示。
继续参见图1,步骤S103、将所述关联资源集合中的资源信息显示给用户,供用户进行选择输入。
具体包括以下步骤:
步骤S301、将能够与所述关联资源集合中的资源信息相匹配的关键词进行特殊标记显示,并生成对应的预览提示按钮。
特殊标记可以采用高亮显示或不同颜色显示加以区分。
步骤S302、对于特殊标记显示的关键词,从所述关联资源集合中选取与该关键词相匹配的资源信息,生成对应的选择操作界面的内容。
在选择操作界面中显示的资源信息按照预设的分类方式进行显示。其中,可以根据所包含的资源信息内容进行分层显示,分为地图、剧情、音乐、视频、名人简介或链接内容等各个信息层。例如,对于地名,可以显示地名简介、地理位置、相关图片或链接等信息。对于城市位置,选择操作界面中会提示地图的信息层;对于音乐,会提示对应的音乐内容层;对于电视剧,会提示对应的剧情列表层;对于名人,会提示对应的名人简介层;对于链接,会提示链接指定内容资料的简介等等。
步骤S303、当用户点击或划过所述预览提示按钮时,弹出与该关键词对应的选择操作界面进行显示,供用户进行选择输入对应的内容。
如果用户需要相关资源信息时,点击所述选择操作界面中的内容进行输入,则对应的资源信息将被输入到在线编辑器中,以便用户进行进一步编辑。如果用户不需要相关资源信息时,则关闭所述选择操作界面。在用户选择输入相应的内容后,用户还可以对选择输入的内容进行进一步编辑。
实施例二
为了提高效率和进行规范处理,相较于实施例一,本实施例提供的方法还包括对存储于服务器上的已有资源库进行预处理。即,预先利用已有资源库建立词条与对应资源信息的数据映射表。
数据映射表中包括词条与对应的资源信息。资源信息包括但不限于词条名称、简介、类型、链接、地理位置、图片、视频和/或剧情等内容。通常情况下,可以直接采用资源信息的词条名称作为标识对应的资源信息的词条。
本发明并不对数据映射表的存储形式加以限定,如可以采用索引表等常规方式进行存储。以百度百科词条库的词条与其对应资源信息的数据映射表为例,其词条与数据信息的对应关系如图3所示,其中包括名称、简介、类型、地理位置、链接等数据信息。
当然,如果已有资源库本身就是以类似数据映射表的方式存储,例如,百度百科、维基百科等百科资源,其本身就以百科词条库的方式进行数据存储,词条库中包含词条及其对应的资源信息,则本发明也可以直接采用已有词条库进行后续匹配操作。
相应地,步骤S102具体为:利用用户输入的内容与所述数据映射表的词条进行匹配,得到满足预设要求的词条,构成关联词集合。
先利用用户输入的内容分词得到的关键词,根据所述关键词与所述数据映射表中各词条的相关度大小,得到与所述关键词相匹配的词条,构成关联词集合。
其中,基于词条的语义相关性计算得到各词条与所述关键词的相关度。计算所述关键词与各词条的相关度可以但不限于采用计算词与词之间相关度的方法或者计算关键词与各词条对应的资源信息之间的相关度的方法。
计算词A与词B之间的相关度RAB的具体过程包括如下:
分别针对词A和词B确定特征向量,该特征向量的确定过程为:先将单个词(如,词A)作为搜索词到搜索引擎中进行搜索,得到搜索结果,选取前X个页面的搜索结果,并对每个页面的内容进行分词并计算分词的TF-IDF作为各个分词的权值,再选取权值排在前Y个的分词作为词A的特征向量。然后,计算词A的特征向量和词B的特征向量之间的相似度作为词A和词B的相关度,两个特征向量之间的相似度可以采用余弦相似度或者内积而得到。
对于计算关键词与各词条对应的资源信息之间的相关度,具体过程与上述的计算词与词之间相关度的方法类似,对于各词条对应的资源信息可以不必进行搜索,直接对各词条对应的资源信息进行分词并计算分词的TF-IDF作为各个分词的权值,再选取权值排在前Y个的分词作为资源信息的特征向量,再计算两个特征向量之间的相似度得到关键词与资源信息之间的相关度。
然后,根据计算得到的相关度对所述各词条进行排序,将满足预设要求的词条构成关联词列表。所述满足预设要求包括:词条的相关度排在前N个,N为预设正整数;或者,词条的相关度大于预设相关度阈值。
例如,关键词“北京”,对应相关度排在前20个的词条包括:[北京,故宫,紫禁城,圆明园,天安门,颐和园,天坛,北海公园,北京城,四合院,......],由关键词与该些词条组成一组数列,以列表的形式,构成关联词列表。
相应地,步骤S103具体为:将所述关联词集合中的词条在所述数据映射表中对应的资源信息显示给用户。具体地包括以下步骤:
步骤S301_1、将能够与所述关联词集合中的词条相匹配的各个关键词进行特殊标记显示,并生成对应的预览提示按钮。
步骤S301_2、对于特殊标记显示的各个关键词,分别在所述关联词集合中选取与该关键词相匹配的词条,并利用选取的词条抓取所述数据映射表中对应的资源信息,生成对应的选择操作界面的内容。
例如,对于关键词“故宫”为特殊标记显示的关键词,则在数据映射表中抓取“故宫”相对应的资源信息,作为所述选择操作界面的内容。
步骤S301_2、当用户点击或划过所述预览提示按钮时,弹出与该关键词对应的选择操作界面进行显示,供用户进行选择输入对应的内容,以便进行进一步编辑操作。
编辑器在检测到触发事件后,则识别用户输入的内容是否有链接(link)的资源信息,对有link的输入内容提供相关资源信息的显示。具体地,通过识别关键词与数据映射表中词条能否匹配,如果关键词有在数据映射表中出现,即能够与数据映射表中的词条相匹配,则说明该关键词具有相应的link,然后利用该关键词通过异步方式抓取link对应网页的预览简介信息(已有资源库的资源信息),进行展示。网页的预览简介信息主要是通过网页的标题(title)、描述(description)以及图片来实现,如果缺乏标题或者描述则自动用网页中文章首段文字作为内容简介,预览简介的图片预览会自动经过异步处理提供合适大小的显示。
实施例三、下面结合图4、图5、图6和图7,以编辑“北京西苑”这个词条为例:
如图4所示,包括:步骤S401、用户输入内容。当用户在编辑器中输入“北京西苑的风景秀丽,有北京紫禁城西苑”语句,并键入回车键后,经过步骤S402检测到预设的触发事件(回车键)后进行触发,进行步骤S403,对用户输入的内容“北京西苑的风景秀丽,有北京紫禁城西苑”进行分词过滤,得到关键词“北京西苑”、“风景”、“北京”、“紫禁城”、“西苑”、“紫禁城西苑”。并基于倒文档率或词频-倒文档率计算该些关键词的权值,根据关键词的权值进行过滤处理后得到关键词“北京西苑”、“紫禁城西苑”、“西苑”、“紫禁城”和“北京”。经过步骤S404进行匹配,得到匹配的资源信息,具体包括:利用这些关键词到已有资源库中进行匹配,得到相匹配的资源信息。对于百科词条库,则可以利用该些关键词与预先建立的数据映射表中词条进行匹配,将匹配得到的词条对应的资源信息构成关联资源列表。在匹配后进行步骤S405,将得到的资源信息生成选择操作界面,显示给用户。具体地,将能够与关联资源列表相关联的关键词进行高亮显示,如图5所示,高亮显示的有“北京西苑的风景”和“北京紫禁城西苑”,并生成相应的预览提示按钮(preview)。当用户点击或划过preview时,在线编辑器将弹出选择操作界面,并将相关联的资源信息在选择操作界面上显示给用户,如图6所示,显示的是相关地图的信息层。用户可以在该选择操作界面上点选“确定”,从而实现地图信息的输入,不需要用户找寻相关地图,快捷方便。经过步骤S406判断用户是否选择输入,如果否,则直接进行步骤S408,如果是,则进行步骤S407,将用户选择的资源信息(地图)输入到编辑器中,用户选择输入地图后的效果如图7所示,“北京西苑”的地图已被插入到编辑器中,进行步骤S408继续编辑,用户对该地图还可以进行进一步的编辑操作,而后至步骤S401进行循环。
以上是对本发明所提供的方法进行的详细描述,下面对本发明提供的在线编辑器的编辑系统进行详细描述。
实施例四、
图8是本实施例提供的在线编辑器的编辑系统结构图,如图8所示,该系统包括:
检测模块10,用于对用户输入的内容进行检测,判断所述用户输入的内容是否符合预设的触发事件,触发匹配模块20。
所述预设的触发事件是预先定义好的触发事件,可以采用键盘按键或按键组合的方式定义触发事件,比如采用回车键进行触发;或者,采用输入字符的停顿时间超过预设时间阈值,比如停顿时间大于5秒时则触发。
当未检测到预设的触发事件时,本发明的输入和编辑方式与通用的在线编辑器相同。当检测判断到用户的输入是预设的触发事件,如用户在键盘上输入回车键时,则获取用户输入的内容。
匹配模块20,用于受到所述检测模块10触发时,利用用户输入的内容与已有资源库中的资源信息进行匹配,将匹配到的资源信息,形成关联资源集合。
匹配模块20进行匹配所采用的所述用户输入的内容,可以是预设的触发事件之前的一个词、一句话或者一段话。例如,用户在输入“北京西苑”后,输入预设的触发事件“回车键”后,则获取得到的内容是“北京西苑”。
用户输入的内容也可以是用户输入预设的触发事件之前选取的内容。当用户选取特定内容(例如某一词句或者语段)后,触发预设的触发事件(如按回车键)时,则利用该用户选取的特定内容进行匹配。
所述资源信息包括但不限于词条名称、简介、类型、链接、地理位置、图片、视频和/或剧情。
匹配模块20具体包括:
分词单元201,用于对用户输入的内容进行分词,得到关键词。
采用现有的分词方法进行分词,例如可以采用正向最大匹配法进行大粒度分词,同时采用正向最小匹配法进行小粒度分词,得到词项。以“北京西苑的风景”为例,分词结果得到词项,包括:“北京”、“西苑”、“北京西苑”、“的”和“风景”。在分词后,采用现有过滤方法,过滤掉标点符号及停用词,得到关键词“北京”、“西苑”、“北京西苑”和“风景”。
为了提高效率,分词单元201对得到关键词进行进一步的过滤处理,将过滤后的关键词供给检索模块202进行检索。特别是当得到的关键词词数较多时,效果较为明显。具体地包括:
先基于词项的倒文档率或者词频-倒文档率(TF-IDF)计算各关键词的权值,将能够与可信度高的网站资源信息相匹配的关键词赋予较高权值。
在确定是否能够与可信度高的网站资源信息相匹配时,可以将可信度高的资源信息对应的词条形成预设的词条列表,再判断关键词是否在所述词条列表中,如果在,则能够相匹配,否则,不相匹配。如,将能够与百科词条资源信息相匹配的关键词优先。
再根据各关键词的权值进行排序和过滤处理,去掉关键词的权值小于预设阈值的关键词。例如,“风景”这个关键词的倒文档率较小,即表意能力较差,计算得到的权值可能小于预设阈值,则经过本模块的处理之后将会被过滤掉。
检索单元202,用于利用分词单元201得到的关键词到已有资源库中进行索,根据所述关键词与已有资源库中资源信息的相关度大小,得到与所述关键词相匹配的资源信息。
所述已有资源库可以是先前通过搜索引擎从网络中抓取回来的存储于服务器上的数据资源信息,也可以是现时利用搜索引擎从网络中抓取回来的数据资源信息。
利用关键词通过检索抽取匹配的资源信息,其中抽取资源信息的方法可以结合一定的抽取优先级策略进行,例如,采用现有的深度优先策略(DFS)或广度优先策略(BFS)等优先级策略进行资源信息的抓取。
所述关键词与匹配的资源信息之间的相关度,可以但不限于采用词与文档之间的相关度的计算方法来计算。具体包括:
利用关键词作为搜索词到搜索引擎中进行搜索,选取前X个页面的搜索结果,并对每个页面的内容进行分词并计算分词的TF-IDF作为各个分词的权值,再选取权值排在前Y个的分词作为所述关键词的特征向量。同样地,将匹配的资源信息进行分词并计算分词的TF-IDF作为各个分词的权值,再选取权值排在前Y个的分词作为所述资源信息的特征向量。然后,计算关键词的特征向量和资源信息的特征向量之间的相似度作为所述关键词和资源信息之间的相关度,两个特征向量之间的相似度可以采用余弦相似度或者内积而得到。
排序单元203,用于根据所述相关度大小对所述匹配的资源信息进行排序,将满足预设要求的资源信息构成关联资源集合。
所述满足预设要求包括:相关度排在前N个,N为预设正整数;或者,相关度大于预设相关度阈值。
另外,可以将排序单元203得到的关联资源集合以关联资源列表的形式存储于系统的缓存(memcache)中,便于后续进行显示。
显示模块30,用于将所述关联资源集合中的资源信息显示给用户,供用户进行选择输入。
显示模块30具体包括:
提示按钮生成单元301,用于将能够与所述关联资源集合中的资源信息相匹配的关键词进行特殊标记显示,并生成对应的预览提示按钮。
特殊标记可以采用高亮显示或不同颜色显示加以区分。
操作界面生成单元302,用于对于特殊标记显示的关键词,从所述关联资源集合中选取与该关键词相匹配的资源信息,生成对应的选择操作界面的内容。
在选择操作界面中显示的资源信息按照预设的分类方式进行显示。其中,可以根据所包含的资源信息内容进行分层显示,分为地图、剧情、音乐、视频、名人简介或链接内容等各个信息层。例如,对于地名,可以显示地名简介、地理位置、相关图片或链接等信息。对于城市位置,选择操作界面中会提示地图的信息层;对于音乐,会提示对应的音乐内容层;对于电视剧,会提示对应的剧情列表层;对于名人,会提示对应的名人简介层;对于链接,会提示链接指定内容资料的简介等等。
弹出显示单元303,用于当用户点击或划过所述预览提示按钮时,弹出与该关键词对应的选择操作界面进行显示,供用户进行选择输入对应的内容。
如果用户需要相关资源信息时,点击所述选择操作界面中的内容进行输入,则对应的资源信息将被输入到在线编辑器中,以便用户进行进一步编辑。如果用户不需要相关资源信息时,则关闭所述选择操作界面。另外,还可以利用在线编辑器系统的编辑模块,在用户选择输入相应的内容后,对用户选择输入的内容进行编辑。
数据映射表建立模块40,用于预先利用已有资源库建立词条与对应资源信息的数据映射表。
数据映射表中包括词条与对应的资源信息。资源信息包括但不限于词条名称、简介、类型、链接、地理位置、图片、视频和/或剧情等内容。通常情况下,可以直接采用资源信息的词条名称作为标识对应的资源信息的词条。
如果已有资源库本身就是以类似数据映射表的方式存储,例如,百度百科、维基百科等百科资源,其本身就以百科词条库的方式进行数据存储,词条库中包含词条及其对应的资源信息,则本发明也可以直接采用已有词条库进行后续匹配操作。
此时,匹配模块20中分词单元201对获取到对用户输入的内容进行分词得到的关键词,检索单元202利用关键词直接与所述数据映射表的词条进行匹配,根据所述关键词与所述数据映射表中各词条的相关度大小,得到与所述关键词相匹配的词条,计算各词条与所述关键词的相关度,排序单元203根据计算得到的所述相关度大小对所述各词条进行排序,将满足预设要求的词条构成关联词列表集合。
匹配模块20中的检索单元202基于词条的语义相关性计算各词条与所述关键词的相关度。检索单元202计算所述关键词与各词条的相关度可以但不限于采用计算词与词之间相关度的方法或者计算关键词与各词条对应的资源信息之间的相关度的方法。
计算词A与词B之间的相关度RAB的具体过程包括如下:
分别针对词A和词B确定特征向量,该特征向量的确定过程为:先将单个词(如,词A)作为搜索词到搜索引擎中进行搜索,得到搜索结果,选取前X个页面的搜索结果,并对每个页面的内容进行分词并计算分词的TF-IDF作为各个分词的权值,再选取权值排在前Y个的分词作为词A的特征向量。然后,计算词A的特征向量和词B的特征向量之间的相似度作为词A和词B的相关度,两个特征向量之间的相似度可以采用余弦相似度或者内积而得到。
对于计算关键词与各词条对应的资源信息之间的相关度,具体过程与上述的计算词与词之间相关度的方法类似,对于各词条对应的资源信息可以不必进行搜索,直接对各词条对应的资源信息进行分词并计算分词的TF-IDF作为各个分词的权值,再选取权值排在前Y个的分词作为资源信息的特征向量,再计算两个特征向量之间的相似度得到关键词与资源信息之间的相关度。
然后,关联资源确定模块203根据计算得到的相关度对所述各词条进行排序,将满足预设要求的词条构成关联词列表。所述满足预设要求包括:词条的相关度排在前N个,N为预设正整数;或者,词条的相关度大于预设相关度阈值。
显示模块30将所述关联词集合中的词条在所述数据映射表中对应的资源信息显示给用户。具体地:提示按钮生成单元301用于将能够与所述关联词集合中的词条相匹配的各个关键词进行特殊标记显示,并生成对应的预览提示按钮。操作界面生成单元302用于对特殊标记显示的各个关键词,分别在所述关联词集合中选取与该关键词相匹配的词条,并利用选取的词条抓取所述数据映射表中对应的资源信息,生成对应的选择操作界面的内容。当用户点击或划过所述预览提示按钮时,弹出显示单元303弹出与该关键词对应的选择操作界面进行显示,供用户进行选择输入对应的内容,以便供编辑模块进行进一步编辑操作。
编辑器前端在用户输入内容的时候,每次键入回车键/或者其它指定的键盘事件,都会触发进行自动检测匹配。在检测到触发事件后,则识别用户输入的内容是否有link的资源信息,对有link的输入内容提供相关资源信息的显示。具体地,通过识别关键词与数据映射表中词条能否匹配,如果关键词有在数据映射表中出现,即能够与数据映射表中的词条相匹配,则说明该关键词具有相应的link,然后利用该关键词通过异步形式传送到后端服务器,后端服务器接收数据后,进行分词匹配操作,抓取link对应的第三方资源(如网页的预览简介信息),同时反馈给前端,前端接收到反馈后,直接将相应的关键字进行特殊颜色标记,同时弹出预览提示查看按钮,当用户鼠标滑过/点击的时候弹出相关第三方资源的信息展示。
本发明提供的内容输入方法和系统,可以实现编辑内容自动匹配、提示、预览与输入支持,主要是指在编辑器中编辑输入内容的同时,通过指定快捷键,直接触发相关资源匹配和提示操作,用户可以选择需要或者感兴趣的内容预览后输入。不仅可以提升编辑的效率,同时还提高了编辑资料的完善度,提升质量。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (18)

1.一种在线编辑器的内容输入方法,其特征在于,包括:
步骤S1、对用户输入的内容进行检测,判断所述用户输入的内容是否符合预设的触发事件,如果是,则执行步骤S2;
步骤S2、利用用户输入的内容与已有资源库中的资源信息进行匹配,将匹配到的资源信息,形成关联资源集合;
步骤S3、将所述关联资源集合中的资源信息显示给用户,供用户进行选择输入;其中,
所述步骤S3具体包括:
将能够与所述关联资源集合相匹配的各个关键词进行特殊标记显示,并生成对应的预览提示按钮;
对于特殊标记显示的关键词,从所述关联资源集合中选取与该关键词相匹配的资源信息,生成对应的选择操作界面的内容;
当用户点击或划过所述预览提示按钮时,弹出与该关键词对应的选择操作界面进行显示,供用户进行选择输入对应的内容。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2具体包括:
步骤S2_1、对用户输入的内容进行分词,得到关键词;
步骤S2_2、利用所述关键词在已有资源库中进行检索,根据所述关键词与已有资源库中资源信息的相关度大小,得到与所述关键词相匹配的资源信息。
3.根据权利要求2所述的方法,其特征在于,所述步骤S2_1得到关键词后,还包括:基于词项的倒文档率或者词频-倒文档率计算各关键词的权值,根据所述关键词的权值对关键词进行过滤,将过滤后的关键词供给后续步骤S2_2进行检索。
4.根据权利要求3所述的方法,其特征在于,在计算得到所述各关键词的权值之后,还包括:对关键词的权值进行调权处理,将能够与可信度高的网站资源信息相匹配的关键词的权值调高。
5.根据权利要求2所述的方法,其特征在于,还包括:步骤S2_3、根据所述相关度大小对所述匹配的资源信息进行排序,将满足预设要求的资源信息构成关联资源集合。
6.根据权利要求1所述的方法,其特征在于,所述选择操作界面中的资源信息按照预设的分类方式进行显示。
7.根据权利要求1所述的方法,其特征在于,该方法还包括:对用户选择输入的内容进行编辑。
8.根据权利要求1所述的方法,其特征在于,该方法还包括:预先利用已有资源库建立词条与对应资源信息的数据映射表;
步骤S2对用户输入的内容进行分词得到的关键词,根据所述关键词与所述数据映射表中各词条的相关度大小,得到与所述关键词相匹配的词条,构成关联词集合;
步骤S3将所述关联词集合中的词条在所述数据映射表中对应的资源信息显示给用户。
9.根据权利要求8所述的方法,其特征在于,所述步骤S2基于词条的语义相关性计算得到各词条与所述关键词的相关度。
10.一种在线编辑器的内容输入系统,其特征在于,包括:
检测模块,用于对用户输入的内容进行检测,判断所述用户输入的内容是否符合预设的触发事件,触发匹配模块;
匹配模块,用于受到所述检测模块触发时,利用用户输入的内容与已有资源库中的资源信息进行匹配,将匹配到的资源信息,形成关联资源集合;
显示模块,用于将所述关联资源集合中的资源信息显示给用户,供用户进行选择输入;其中,
所述显示模块具体包括:
提示按钮生成单元,用于将能够与所述关联资源集合相匹配的各个关键词进行特殊标记显示,并生成对应的预览提示按钮;
操作界面生成单元,用于对于特殊标记显示的关键词,从所述关联资源集合中选取与该关键词相匹配的资源信息,生成对应的选择操作界面的内容;
弹出显示单元,用于当用户点击或划过所述预览提示按钮时,弹出与该关键词对应的选择操作界面进行显示,供用户进行选择输入对应的内容。
11.根据权利要求10所述的系统,其特征在于,所述匹配模块具体包括:
分词单元,用于对用户输入的内容进行分词,得到关键词;
检索单元,用于利用所述分词单元得到的关键词到已有资源库中进行检索,根据所述关键词与已有资源库中资源信息的相关度大小,得到与所述关键词相匹配的资源信息。
12.根据权利要求11所述的系统,其特征在于,所述分词单元基于词项的倒文档率或者词频-倒文档率计算各关键词的权值,根据所述关键词的权值对关键词进行过滤,将过滤后的关键词供给所述检索单元进行检索。
13.根据权利要求12所述的系统,其特征在于,所述分词单元在计算得到所述各关键词的权值之后,还包括:对关键词的权值进行调权处理,将能够与可信度高的网站资源信息相匹配的关键词的权值调高。
14.根据权利要求11所述的系统,其特征在于,所述匹配模块还包括:
排序单元,用于根据所述相关度大小对所述匹配的资源信息进行排序,将满足预设要求的资源信息构成关联资源集合。
15.根据权利要求10所述的系统,其特征在于,所述选择操作界面中的资源信息按照预设的分类方式进行显示。
16.根据权利要求10所述的系统,其特征在于,还包括:编辑模块,用于对用户选择输入的内容进行编辑。
17.根据权利要求10所述的系统,其特征在于,该系统还包括:数据映射表建立模块,用于预先利用已有资源库建立词条与对应资源信息的数据映射表;
所述匹配模块对用户输入的内容进行分词得到的关键词,根据所述关键词与所述数据映射表中各词条的相关度大小,得到与所述关键词相匹配的词条,构成关联词集合;
所述显示模块将所述关联词集合中的词条在所述数据映射表中对应的资源信息显示给用户。
18.根据权利要求17所述的系统,其特征在于,所述匹配模块基于词条的语义相关性计算得到各词条与所述关键词的相关度。
CN201110450266.2A 2011-12-29 2011-12-29 一种在线编辑器的内容输入方法及系统 Active CN102591475B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110450266.2A CN102591475B (zh) 2011-12-29 2011-12-29 一种在线编辑器的内容输入方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110450266.2A CN102591475B (zh) 2011-12-29 2011-12-29 一种在线编辑器的内容输入方法及系统

Publications (2)

Publication Number Publication Date
CN102591475A CN102591475A (zh) 2012-07-18
CN102591475B true CN102591475B (zh) 2016-01-13

Family

ID=46480271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110450266.2A Active CN102591475B (zh) 2011-12-29 2011-12-29 一种在线编辑器的内容输入方法及系统

Country Status (1)

Country Link
CN (1) CN102591475B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102866785A (zh) * 2012-08-29 2013-01-09 百度在线网络技术(北京)有限公司 一种文字输入方法、系统以及装置
CN103076894B (zh) * 2012-12-31 2016-05-18 百度在线网络技术(北京)有限公司 一种用于根据对象标识信息构建输入词条的方法与设备
CN103294780B (zh) * 2013-05-13 2017-02-08 百度在线网络技术(北京)有限公司 一种目录映射关系挖掘方法和装置
CN104751064A (zh) * 2013-12-27 2015-07-01 珠海金山办公软件有限公司 一种文档加密提示方法及系统
CN105095176A (zh) * 2014-04-29 2015-11-25 华为技术有限公司 用户设备提取文本信息中的特征信息的方法和用户设备
CN104317814A (zh) * 2014-09-27 2015-01-28 无锡市恒通智能交通设施有限公司 一种客户端信息快速编辑方法
TWI617981B (zh) * 2014-10-08 2018-03-11 極刻科技(香港)控股有限公司 一種使用線上內容以輸入訊息至應用程式的方法
CN106649249A (zh) * 2015-07-14 2017-05-10 比亚迪股份有限公司 检索方法和检索装置
CN105975545A (zh) * 2016-04-29 2016-09-28 努比亚技术有限公司 一种终端控制方法及终端
CN107765883A (zh) * 2016-08-22 2018-03-06 富士通株式会社 输入法的候选词语的排序方法和排序设备
CN107422941A (zh) * 2017-08-10 2017-12-01 北京泰迪熊移动科技有限公司 交互方法和系统
CN110019672A (zh) * 2017-11-09 2019-07-16 北京国双科技有限公司 一种类似案件的推送方法、系统、存储介质和处理器
CN109740128B (zh) * 2018-04-18 2020-07-03 北京字节跳动网络技术有限公司 一种文本编辑辅助方法、装置及设备
CN109144954B (zh) * 2018-09-18 2021-03-16 北京字节跳动网络技术有限公司 编辑文档的资源推荐方法、装置及电子设备
CN110489570A (zh) * 2019-08-06 2019-11-22 北京如优教育科技有限公司 候选全网参考文献实时更新平台和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452453A (zh) * 2007-11-29 2009-06-10 北京搜狗科技发展有限公司 一种输入法网址导航的方法和一种输入法系统
CN102063452A (zh) * 2010-05-31 2011-05-18 百度在线网络技术(北京)有限公司 用于供用户进行文字输入的方法、设备、服务器和系统
CN102110170A (zh) * 2011-03-18 2011-06-29 北京百度网讯科技有限公司 一种具有信息发布和搜索功能的系统及信息发布方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8712999B2 (en) * 2010-06-10 2014-04-29 Aol Inc. Systems and methods for online search recirculation and query categorization

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452453A (zh) * 2007-11-29 2009-06-10 北京搜狗科技发展有限公司 一种输入法网址导航的方法和一种输入法系统
CN102063452A (zh) * 2010-05-31 2011-05-18 百度在线网络技术(北京)有限公司 用于供用户进行文字输入的方法、设备、服务器和系统
CN102110170A (zh) * 2011-03-18 2011-06-29 北京百度网讯科技有限公司 一种具有信息发布和搜索功能的系统及信息发布方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Myelipse6.5、MyEclipse 8.5设置自动提示代码功能;DENNY;《CSDN博客http://blog.csdn.net/itwit/article/details/6827039》;20110927;第1页 *

Also Published As

Publication number Publication date
CN102591475A (zh) 2012-07-18

Similar Documents

Publication Publication Date Title
CN102591475B (zh) 一种在线编辑器的内容输入方法及系统
CN109800352B (zh) 基于剪贴板进行信息推送的方法、系统及终端设备
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
US8335787B2 (en) Topic word generation method and system
CN101984423B (zh) 一种热搜词生成方法及系统
CN110888990A (zh) 文本推荐方法、装置、设备及介质
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN102725759A (zh) 用于搜索结果的语义目录
CN102314443B (zh) 搜索引擎的修正方法和系统
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
Cornolti et al. The SMAPH system for query entity recognition and disambiguation
CN105787025A (zh) 网络平台公共账号分类方法及装置
CN108021715B (zh) 基于语义结构特征分析的异构标签融合系统
CN105518661A (zh) 经由挖掘的超链接文本的片段来浏览图像
CN104933191A (zh) 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端
US20160048575A1 (en) System and method for topics extraction and filtering
US20200293529A1 (en) Answer facts from structured content
CN109634570A (zh) 前后端集成开发方法、装置、设备及计算机可读存储介质
CN107085568A (zh) 一种文本相似度判别方法及装置
CN106339382A (zh) 一种业务对象的推送方法和装置
CN102063454A (zh) 一种搜索与应用相结合的方法和设备
CN103955480A (zh) 一种用于确定用户所对应的目标对象信息的方法与设备
CN105279159B (zh) 联系人的提示方法和装置
CN102063497B (zh) 一种开放式知识共享平台及其词条处理方法
CN103377225A (zh) 知识库系统的构建方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant