CN112149428A - 基于语义分析和深度学习的智能写作辅助系统 - Google Patents

基于语义分析和深度学习的智能写作辅助系统 Download PDF

Info

Publication number
CN112149428A
CN112149428A CN202011085142.4A CN202011085142A CN112149428A CN 112149428 A CN112149428 A CN 112149428A CN 202011085142 A CN202011085142 A CN 202011085142A CN 112149428 A CN112149428 A CN 112149428A
Authority
CN
China
Prior art keywords
word
module
words
frequency
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011085142.4A
Other languages
English (en)
Inventor
陈海林
张蓬
赵绪龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Trueland Information Technology Shanghai Co ltd
Original Assignee
Trueland Information Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Trueland Information Technology Shanghai Co ltd filed Critical Trueland Information Technology Shanghai Co ltd
Priority to CN202011085142.4A priority Critical patent/CN112149428A/zh
Publication of CN112149428A publication Critical patent/CN112149428A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于语义分析和深度学习的智能写作辅助系统,用于解决现有技术对于内容级别的研究甚少,没有对写作的内容进行主题方面的提示和推荐,不能有效地解决用户缺乏写作素材或灵感的问题;包括信息获取模块、词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块;所述信息获取模块用于获取供词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块使用的网络信息,并将获取的网络信息发送至词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块。

Description

基于语义分析和深度学习的智能写作辅助系统
技术领域
本发明涉及一种智能写作辅助系统,具体为基于语义分析和深度学习的智能写作辅助系统,属于智能写作辅助系统技术领域。
背景技术
在语言的学习过程中,写作常常扮演着重要的角色。写作者的写作水平可以凸显其掌握语言的熟练程度,要想写出高质量的文章,必须拥有大量的阅读经历及知识储备。然而,对大多数以非英语为母语的学生来说,由于英语阅读经历和知识储备的缺乏,写出高质量的英语文章绝非是一件容易的事。
然而,大多数系统都将重点放在词汇、短语、语句级别,对于内容级别的研究甚少,没有对写作的内容进行主题方面的提示和推荐,不能有效地解决用户缺乏写作素材或灵感的问题。
为了解决上述技术问题,本发明提供如下技术方案。
发明内容
本发明的目的在于提供基于语义分析和深度学习的智能写作辅助系统,用于解决现有技术对于内容级别的研究甚少,没有对写作的内容进行主题方面的提示和推荐,不能有效地解决用户缺乏写作素材或灵感的问题;本发明包括信息获取模块、词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块;所述信息获取模块用于获取供词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块使用的网络信息,并将获取的网络信息发送至词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块。
本发明的目的可以通过以下技术方案实现:
基于语义分析和深度学习的智能写作辅助系统,包括信息获取模块、词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块;
所述信息获取模块用于获取供词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块使用的网络信息,并将获取的网络信息发送至词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块;
所述词搭配模块用于计算两个词语的关联程度,具体计算过程包括以下步骤:
步骤一:获取词语i,j在语料库中出现的频率,获取词语i,j在语料库中共同出现的频率,并将词语i,j在语料库中出现的频率以及词语i,j在语料库中共同出现的频率发送至词搭配模块;
步骤二:所述词搭配模块获取得到词语i,j在语料库中出现的频率以及词语i,j在语料库中共同出现的频率后,将其标记为Pi、Pj以及Pij;
步骤三:利用计算公式得到词语i,j的关联度Gij,
其中计算公式为
Figure BDA0002720087660000021
其中α为修正系数固定值;
所述例句实时提示模块用于根据用户的当前输入,为用户提供包含词或者短语的例句;所述相关内容推荐模块用于根据用户的输入进行主题内容分析,为客户提供主题相关,内容相近的句子;
所述主题词抽取模块具体为一种统计方法,用来评估一个词对于一个文档的重要程度,具体评估方式如下:
步骤S1:通过信息获取模块获取词p在文档q中出现的次数,获取文档q中包含p的词数,并将词p在文档q中出现的次数以及文档q中包含p的词数发送至主题词抽取模块;
步骤S2:主题词抽取模块得到词p在文档q中出现的次数以及文档q中包含p的词数后将其分别标记为Np,q、Mq;
步骤S3:利用计算公式计算出词p的词频Cp,q,计算公式为
Figure BDA0002720087660000031
其中β表示预设比例系数固定值;
步骤S4:获取语料库中文档的数量、包含词n的文档数量,并将语料库中文档的数量以及包含词n的文档数量发送至主题词抽取模块;
步骤S5:主题词抽取模块得到语料库中文档的数量以及包含词n的文档数量,将其分别标记为Z、Bn;
步骤S6:利用计算公式计算逆向文件频率I,计算公式为
Figure BDA0002720087660000032
其中γ表示预设比例系数固定值;
步骤S7:设定重要度值D,利用计算公式计算重要度值D,计算公式为D=θ×Cp,q×I。
作为本发明的进一步方案,所述相似度计算模块用于根据两个词语的路径以及公共同义词集进行计算得出相似度,具体的计算过程包括以下步骤:
步骤P1:通过信息获取模块获取两个词语所在同义词集中的路径长度、公共同义词集的深度,并将两个词语所在同义词集中的路径长度、公共同义词集的深度发送至相似度计算模块;
步骤P2:相似度计算模块得到两个词语所在同义词集中的路径长度、公共同义词集的深度后,将其分别标记为l、h;
步骤P3:利用计算公式计算相似度S,其中相似度S的计算公式为
Figure BDA0002720087660000041
其中c1、c2分别是路径长度l、公共同义词集的深度h的权重,且c1、c2∈[0,1]。
作为本发明的进一步方案,所述信息获取模块用于网络信息,具体网络信息包括:词语i,j在语料库中出现的频率、词语i,j在语料库中共同出现的频率、词p在文档q中出现的次数、文档q中包含p的词数、语料库中文档的数量、包含词n的文档数量、两个词语所在同义词集中的路径长度以及公共同义词集的深度。
作为本发明的进一步方案,智能写作辅助具体表现为以下步骤:
步骤G1:当用户使用鼠标点击某个特定的词语时,词搭配模块在搭配词库中进行检索,为用户推荐与词语搭配的词;
步骤G11:词搭配模块在搭配词库中进行检索,获取与输入词语关联的词语;
步骤G12:将与输入词语关联的词语按照关联度由大到小的顺序依次排列;
步骤G13:将排列的关联词显示在用户的界面上;
步骤G2:当用户输入语句时,例句实时提示模块根据用户的当前输入,为其提供包含当前输入中词或短语的例句;
步骤G21:当用户输入语句空格键被按下时,例句实时提示模块向互联网发送http请求,例句实时提示模块自动获取用户的输入提交给互联网;
步骤G22:例句实时提示模块首先对用户的输入进行分句,提取出用户正在输入的当前句S:对句子S分词,并将S中的当前词作为查询词在句子索引库中进行检索,找出包含当前词的候选句ID:
步骤G23:在句子库中找出句子ID对应的句子信息,并计算候选句与句子S的相似度,并按其相似度进行排序,将例句显示在用户的界面上;
步骤G3:相关内容推荐模块用于根据用户的输入进行主题内容分析,为客户提供主题相关,内容相近的句子;
步骤G31:当用户输入语句空格键被按下时,对语句进行分句,分词以及词性标注;
步骤G32:通过信息获取模块获取词p在文档q中出现的次数,获取文档q中包含p的词数,并将词p在文档q中出现的次数以及文档q中包含p的词数发送至主题词抽取模块;
步骤G33:主题词抽取模块得到词p在文档q中出现的次数以及文档q中包含p的词数后将其分别标记为Np,q、Mq;
步骤G34:利用计算公式计算出词p的词频Cp,q,计算公式为
Figure BDA0002720087660000051
其中β表示预设比例系数固定值;
步骤G35:获取语料库中文档的数量、包含词n的文档数量,并将语料库中文档的数量以及包含词n的文档数量发送至主题词抽取模块;
步骤G36:主题词抽取模块得到语料库中文档的数量以及包含词n的文档数量,将其分别标记为Z、Bn;
步骤G37:利用计算公式计算逆向文件频率I,计算公式为
Figure BDA0002720087660000052
其中γ表示预设比例系数固定值;
步骤G38:设定重要度值D,利用计算公式计算重要度值D,计算公式为D=θ×Cp,q×I;
步骤G39:按其重要度值D进行排序,将例句显示在用户的界面上。
与现有技术相比,本发明的有益效果是:
1、词搭配模块用于计算两个词语的关联程度,获取词语i,j在语料库中出现的频率,获取词语i,j在语料库中共同出现的频率,并将词语i,j在语料库中出现的频率以及词语i,j在语料库中共同出现的频率发送至词搭配模块;所述词搭配模块获取得到词语i,j在语料库中出现的频率以及词语i,j在语料库中共同出现的频率后,将其标记为Pi、Pj以及Pij;利用计算公式得到词语i,j的关联度Gij,其中计算公式为
Figure BDA0002720087660000061
其中α为修正系数固定值。
2、主题词抽取模块具体为一种统计方法,用来评估一个词对于一个文档的重要程度,通过信息获取模块获取词p在文档q中出现的次数,获取文档q中包含p的词数,并将词p在文档q中出现的次数以及文档q中包含p的词数发送至主题词抽取模块;主题词抽取模块得到词p在文档q中出现的次数以及文档q中包含p的词数后将其分别标记为Np,q、Mq;利用计算公式计算出词p的词频Cp,q,计算公式为
Figure BDA0002720087660000062
其中β表示预设比例系数固定值;获取语料库中文档的数量、包含词n的文档数量,并将语料库中文档的数量以及包含词n的文档数量发送至主题词抽取模块;主题词抽取模块得到语料库中文档的数量以及包含词n的文档数量,将其分别标记为Z、Bn;利用计算公式计算逆向文件频率I,计算公式为
Figure BDA0002720087660000063
其中γ表示预设比例系数固定值;设定重要度值D,利用计算公式计算重要度值D,计算公式为D=θ×Cp,q×I。
3、相似度计算模块用于根据两个词语的路径以及公共同义词集进行计算得出相似度,通过信息获取模块获取两个词语所在同义词集中的路径长度、公共同义词集的深度,并将两个词语所在同义词集中的路径长度、公共同义词集的深度发送至相似度计算模块;相似度计算模块得到两个词语所在同义词集中的路径长度、公共同义词集的深度后,将其分别标记为l、h;利用计算公式计算相似度S,其中相似度S的计算公式为
Figure BDA0002720087660000064
其中c1、c2分别是路径长度l、公共同义词集的深度h的权重,且c1、c2∈[0,1]。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的原理框图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,基于语义分析和深度学习的智能写作辅助系统,包括信息获取模块、词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块;
所述信息获取模块用于获取供词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块使用的网络信息,并将获取的网络信息发送至词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块;
所述词搭配模块用于计算两个词语的关联程度,具体计算过程包括以下步骤:
步骤一:获取词语i,j在语料库中出现的频率,获取词语i,j在语料库中共同出现的频率,并将词语i,j在语料库中出现的频率以及词语i,j在语料库中共同出现的频率发送至词搭配模块;
步骤二:所述词搭配模块获取得到词语i,j在语料库中出现的频率以及词语i,j在语料库中共同出现的频率后,将其标记为Pi、Pj以及Pij;
步骤三:利用计算公式得到词语i,j的关联度Gij,
其中计算公式为
Figure BDA0002720087660000081
其中α为修正系数固定值;
所述例句实时提示模块用于根据用户的当前输入,为用户提供包含词或者短语的例句;所述相关内容推荐模块用于根据用户的输入进行主题内容分析,为客户提供主题相关,内容相近的句子;
所述主题词抽取模块具体为一种统计方法,用来评估一个词对于一个文档的重要程度,具体评估方式如下:
步骤S1:通过信息获取模块获取词p在文档q中出现的次数,获取文档q中包含p的词数,并将词p在文档q中出现的次数以及文档q中包含p的词数发送至主题词抽取模块;
步骤S2:主题词抽取模块得到词p在文档q中出现的次数以及文档q中包含p的词数后将其分别标记为Np,q、Mq;
步骤S3:利用计算公式计算出词p的词频Cp,q,计算公式为
Figure BDA0002720087660000082
其中β表示预设比例系数固定值;
步骤S4:获取语料库中文档的数量、包含词n的文档数量,并将语料库中文档的数量以及包含词n的文档数量发送至主题词抽取模块;
步骤S5:主题词抽取模块得到语料库中文档的数量以及包含词n的文档数量,将其分别标记为Z、Bn;
步骤S6:利用计算公式计算逆向文件频率I,计算公式为
Figure BDA0002720087660000083
其中γ表示预设比例系数固定值;
步骤S7:设定重要度值D,利用计算公式计算重要度值D,计算公式为D=θ×Cp,q×I。
其中,所述相似度计算模块用于根据两个词语的路径以及公共同义词集进行计算得出相似度,具体的计算过程包括以下步骤:
步骤P1:通过信息获取模块获取两个词语所在同义词集中的路径长度、公共同义词集的深度,并将两个词语所在同义词集中的路径长度、公共同义词集的深度发送至相似度计算模块;
步骤P2:相似度计算模块得到两个词语所在同义词集中的路径长度、公共同义词集的深度后,将其分别标记为l、h;
步骤P3:利用计算公式计算相似度S,其中相似度S的计算公式为
Figure BDA0002720087660000091
其中c1、c2分别是路径长度l、公共同义词集的深度h的权重,且c1、c2∈[0,1]。
其中,所述信息获取模块用于网络信息,具体网络信息包括:词语i,j在语料库中出现的频率、词语i,j在语料库中共同出现的频率、词p在文档q中出现的次数、文档q中包含p的词数、语料库中文档的数量、包含词n的文档数量、两个词语所在同义词集中的路径长度以及公共同义词集的深度。
其中,智能写作辅助具体表现为以下步骤:
步骤G1:当用户使用鼠标点击某个特定的词语时,词搭配模块在搭配词库中进行检索,为用户推荐与词语搭配的词;
步骤G11:词搭配模块在搭配词库中进行检索,获取与输入词语关联的词语;
步骤G12:将与输入词语关联的词语按照关联度由大到小的顺序依次排列;
步骤G13:将排列的关联词显示在用户的界面上;
步骤G2:当用户输入语句时,例句实时提示模块根据用户的当前输入,为其提供包含当前输入中词或短语的例句;
步骤G21:当用户输入语句空格键被按下时,例句实时提示模块向互联网发送http请求,例句实时提示模块自动获取用户的输入提交给互联网;
步骤G22:例句实时提示模块首先对用户的输入进行分句,提取出用户正在输入的当前句S:对句子S分词,并将S中的当前词作为查询词在句子索引库中进行检索,找出包含当前词的候选句ID:
步骤G23:在句子库中找出句子ID对应的句子信息,并计算候选句与句子S的相似度,并按其相似度进行排序,将例句显示在用户的界面上;
步骤G3:相关内容推荐模块用于根据用户的输入进行主题内容分析,为客户提供主题相关,内容相近的句子;
步骤G31:当用户输入语句空格键被按下时,对语句进行分句,分词以及词性标注;
步骤G32:通过信息获取模块获取词p在文档q中出现的次数,获取文档q中包含p的词数,并将词p在文档q中出现的次数以及文档q中包含p的词数发送至主题词抽取模块;
步骤G33:主题词抽取模块得到词p在文档q中出现的次数以及文档q中包含p的词数后将其分别标记为Np,q、Mq;
步骤G34:利用计算公式计算出词p的词频Cp,q,计算公式为
Figure BDA0002720087660000101
其中β表示预设比例系数固定值;
步骤G35:获取语料库中文档的数量、包含词n的文档数量,并将语料库中文档的数量以及包含词n的文档数量发送至主题词抽取模块;
步骤G36:主题词抽取模块得到语料库中文档的数量以及包含词n的文档数量,将其分别标记为Z、Bn;
步骤G37:利用计算公式计算逆向文件频率I,计算公式为
Figure BDA0002720087660000111
其中γ表示预设比例系数固定值;
步骤G38:设定重要度值D,利用计算公式计算重要度值D,计算公式为D=θ×Cp,q×I;
步骤G39:按其重要度值D进行排序,将例句显示在用户的界面上。
上述公式均是去量化取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数由本领域的技术人员根据实际情况设定。
本发明的工作原理:当用户使用鼠标点击某个特定的词语时,词搭配模块在搭配词库中进行检索,为用户推荐与词语搭配的词;词搭配模块在搭配词库中进行检索,获取与输入词语关联的词语;将与输入词语关联的词语按照关联度由大到小的顺序依次排列;将排列的关联词显示在用户的界面上;
当用户输入语句时,例句实时提示模块根据用户的当前输入,为其提供包含当前输入中词或短语的例句;当用户输入语句空格键被按下时,例句实时提示模块向互联网发送http请求,例句实时提示模块自动获取用户的输入提交给互联网;例句实时提示模块首先对用户的输入进行分句,提取出用户正在输入的当前句S:对句子S分词,并将S中的当前词作为查询词在句子索引库中进行检索,找出包含当前词的候选句ID:在句子库中找出句子ID对应的句子信息,并计算候选句与句子S的相似度,并按其相似度进行排序,将例句显示在用户的界面上;
相关内容推荐模块用于根据用户的输入进行主题内容分析,为客户提供主题相关,内容相近的句子;当用户输入语句空格键被按下时,对语句进行分句,分词以及词性标注;通过信息获取模块获取词p在文档q中出现的次数,获取文档q中包含p的词数,并将词p在文档q中出现的次数以及文档q中包含p的词数发送至主题词抽取模块;主题词抽取模块得到词p在文档q中出现的次数以及文档q中包含p的词数后将其分别标记为Np,q、Mq;利用计算公式计算出词p的词频Cp,q,计算公式为
Figure BDA0002720087660000121
其中β表示预设比例系数固定值;获取语料库中文档的数量、包含词n的文档数量,并将语料库中文档的数量以及包含词n的文档数量发送至主题词抽取模块;主题词抽取模块得到语料库中文档的数量以及包含词n的文档数量,将其分别标记为Z、Bn;利用计算公式计算逆向文件频率I,计算公式为
Figure BDA0002720087660000122
其中γ表示预设比例系数固定值;设定重要度值D,利用计算公式计算重要度值D,计算公式为D=θ×Cp,q×I;按其重要度值D进行排序,将例句显示在用户的界面上。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (4)

1.基于语义分析和深度学习的智能写作辅助系统,其特征在于,包括信息获取模块、词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块;
所述信息获取模块用于获取供词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块使用的网络信息,并将获取的网络信息发送至词搭配模块、例句实时提示模块、相关内容推荐模块、相似度计算模块以及主题词抽取模块;
所述词搭配模块用于计算两个词语的关联程度,具体计算过程包括以下步骤:
步骤一:获取词语i,j在语料库中出现的频率,获取词语i,j在语料库中共同出现的频率,并将词语i,j在语料库中出现的频率以及词语i,j在语料库中共同出现的频率发送至词搭配模块;
步骤二:所述词搭配模块获取得到词语i,j在语料库中出现的频率以及词语i,j在语料库中共同出现的频率后,将其标记为Pi、Pj以及Pij;
步骤三:利用计算公式得到词语i,j的关联度Gij,
其中计算公式为
Figure FDA0002720087650000011
其中α为修正系数固定值;
所述例句实时提示模块用于根据用户的当前输入,为用户提供包含词或者短语的例句;所述相关内容推荐模块用于根据用户的输入进行主题内容分析,为客户提供主题相关,内容相近的句子;
所述主题词抽取模块具体为一种统计方法,用来评估一个词对于一个文档的重要程度,具体评估方式如下:
步骤S1:通过信息获取模块获取词p在文档q中出现的次数,获取文档q中包含p的词数,并将词p在文档q中出现的次数以及文档q中包含p的词数发送至主题词抽取模块;
步骤S2:主题词抽取模块得到词p在文档q中出现的次数以及文档q中包含p的词数后将其分别标记为Np,q、Mq;
步骤S3:利用计算公式计算出词p的词频Cp,q,计算公式为
Figure FDA0002720087650000021
其中β表示预设比例系数固定值;
步骤S4:获取语料库中文档的数量、包含词n的文档数量,并将语料库中文档的数量以及包含词n的文档数量发送至主题词抽取模块;
步骤S5:主题词抽取模块得到语料库中文档的数量以及包含词n的文档数量,将其分别标记为Z、Bn;
步骤S6:利用计算公式计算逆向文件频率I,计算公式为
Figure FDA0002720087650000022
其中γ表示预设比例系数固定值;
步骤S7:设定重要度值D,利用计算公式计算重要度值D,计算公式为D=θ×Cp,q×I。
2.根据权利要求1所述的基于语义分析和深度学习的智能写作辅助系统,其特征在于:所述相似度计算模块用于根据两个词语的路径以及公共同义词集进行计算得出相似度,具体的计算过程包括以下步骤:
步骤P1:通过信息获取模块获取两个词语所在同义词集中的路径长度、公共同义词集的深度,并将两个词语所在同义词集中的路径长度、公共同义词集的深度发送至相似度计算模块;
步骤P2:相似度计算模块得到两个词语所在同义词集中的路径长度、公共同义词集的深度后,将其分别标记为l、h;
步骤P3:利用计算公式计算相似度S,其中相似度S的计算公式为
Figure FDA0002720087650000031
其中c1、c2分别是路径长度l、公共同义词集的深度h的权重,且c1、c2∈[0,1]。
3.根据权利要求1所述的基于语义分析和深度学习的智能写作辅助系统,其特征在于:所述信息获取模块用于网络信息,具体网络信息包括:词语i,j在语料库中出现的频率、词语i,j在语料库中共同出现的频率、词p在文档q中出现的次数、文档q中包含p的词数、语料库中文档的数量、包含词n的文档数量、两个词语所在同义词集中的路径长度以及公共同义词集的深度。
4.根据权利要求1所述的基于语义分析和深度学习的智能写作辅助系统,其特征在于:智能写作辅助具体表现为以下步骤:
步骤G1:当用户使用鼠标点击某个特定的词语时,词搭配模块在搭配词库中进行检索,为用户推荐与词语搭配的词;
步骤G11:词搭配模块在搭配词库中进行检索,获取与输入词语关联的词语;
步骤G12:将与输入词语关联的词语按照关联度由大到小的顺序依次排列;
步骤G13:将排列的关联词显示在用户的界面上;
步骤G2:当用户输入语句时,例句实时提示模块根据用户的当前输入,为其提供包含当前输入中词或短语的例句;
步骤G21:当用户输入语句空格键被按下时,例句实时提示模块向互联网发送http请求,例句实时提示模块自动获取用户的输入提交给互联网;
步骤G22:例句实时提示模块首先对用户的输入进行分句,提取出用户正在输入的当前句S:对句子S分词,并将S中的当前词作为查询词在句子索引库中进行检索,找出包含当前词的候选句ID:
步骤G23:在句子库中找出句子ID对应的句子信息,并计算候选句与句子S的相似度,并按其相似度进行排序,将例句显示在用户的界面上;
步骤G3:相关内容推荐模块用于根据用户的输入进行主题内容分析,为客户提供主题相关,内容相近的句子;
步骤G31:当用户输入语句空格键被按下时,对语句进行分句,分词以及词性标注;
步骤G32:通过信息获取模块获取词p在文档q中出现的次数,获取文档q中包含p的词数,并将词p在文档q中出现的次数以及文档q中包含p的词数发送至主题词抽取模块;
步骤G33:主题词抽取模块得到词p在文档q中出现的次数以及文档q中包含p的词数后将其分别标记为Np,q、Mq;
步骤G34:利用计算公式计算出词p的词频Cp,q,计算公式为
Figure FDA0002720087650000041
其中β表示预设比例系数固定值;
步骤G35:获取语料库中文档的数量、包含词n的文档数量,并将语料库中文档的数量以及包含词n的文档数量发送至主题词抽取模块;
步骤G36:主题词抽取模块得到语料库中文档的数量以及包含词n的文档数量,将其分别标记为Z、Bn;
步骤G37:利用计算公式计算逆向文件频率I,计算公式为
Figure FDA0002720087650000042
其中γ表示预设比例系数固定值;
步骤G38:设定重要度值D,利用计算公式计算重要度值D,计算公式为D=θ×Cp,q×I;
步骤G39:按其重要度值D进行排序,将例句显示在用户的界面上。
CN202011085142.4A 2020-10-12 2020-10-12 基于语义分析和深度学习的智能写作辅助系统 Pending CN112149428A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011085142.4A CN112149428A (zh) 2020-10-12 2020-10-12 基于语义分析和深度学习的智能写作辅助系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011085142.4A CN112149428A (zh) 2020-10-12 2020-10-12 基于语义分析和深度学习的智能写作辅助系统

Publications (1)

Publication Number Publication Date
CN112149428A true CN112149428A (zh) 2020-12-29

Family

ID=73951468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011085142.4A Pending CN112149428A (zh) 2020-10-12 2020-10-12 基于语义分析和深度学习的智能写作辅助系统

Country Status (1)

Country Link
CN (1) CN112149428A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116992834A (zh) * 2023-09-27 2023-11-03 国高信息技术产业研究院(山东)集团有限公司 基于人工智能的辅助写作方法、系统、介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286161A (zh) * 2008-05-28 2008-10-15 华中科技大学 一种基于概念的智能中文问答系统
CN103077158A (zh) * 2013-02-19 2013-05-01 吴志超 基于语料库的计算机辅助写作系统
CN103838833A (zh) * 2014-02-24 2014-06-04 华中师范大学 基于相关词语语义分析的全文检索系统
CN106650943A (zh) * 2016-10-28 2017-05-10 北京百度网讯科技有限公司 基于人工智能的辅助写作方法和装置
CN107967257A (zh) * 2017-11-20 2018-04-27 哈尔滨工业大学 一种级联式作文生成方法
CN109325117A (zh) * 2018-08-24 2019-02-12 北京信息科技大学 一种多特征融合的微博中社会安全事件检测方法
CN109977396A (zh) * 2019-02-18 2019-07-05 深圳壹账通智能科技有限公司 语料分词的情感识别方法、装置、计算机设备及计算机存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286161A (zh) * 2008-05-28 2008-10-15 华中科技大学 一种基于概念的智能中文问答系统
CN103077158A (zh) * 2013-02-19 2013-05-01 吴志超 基于语料库的计算机辅助写作系统
CN103838833A (zh) * 2014-02-24 2014-06-04 华中师范大学 基于相关词语语义分析的全文检索系统
CN106650943A (zh) * 2016-10-28 2017-05-10 北京百度网讯科技有限公司 基于人工智能的辅助写作方法和装置
CN107967257A (zh) * 2017-11-20 2018-04-27 哈尔滨工业大学 一种级联式作文生成方法
CN109325117A (zh) * 2018-08-24 2019-02-12 北京信息科技大学 一种多特征融合的微博中社会安全事件检测方法
CN109977396A (zh) * 2019-02-18 2019-07-05 深圳壹账通智能科技有限公司 语料分词的情感识别方法、装置、计算机设备及计算机存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李家全等: "基于专利知识图谱的专利术语相似度计算研究", 《数据分析与知识发现》, 31 July 2020 (2020-07-31), pages 106 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116992834A (zh) * 2023-09-27 2023-11-03 国高信息技术产业研究院(山东)集团有限公司 基于人工智能的辅助写作方法、系统、介质及电子设备
CN116992834B (zh) * 2023-09-27 2024-01-05 国高信息技术产业研究院(山东)集团有限公司 基于人工智能的辅助写作方法、系统、介质及电子设备

Similar Documents

Publication Publication Date Title
CN111104789B (zh) 文本评分方法、装置和系统
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN105975625A (zh) 一种面向英文搜索引擎的中式英文查询纠错方法和系统
CN110609983B (zh) 一种政策文件结构化分解方法
CN110442872B (zh) 一种文本要素完整性审核方法及装置
CN112231554B (zh) 一种搜索推荐词生成方法、装置、存储介质和计算机设备
CN103678288A (zh) 一种专名自动翻译的方法
Kang Spoken language to sign language translation system based on HamNoSys
Sitender et al. Sansunl: a Sanskrit to UNL enconverter system
CN110826329A (zh) 一种基于困惑度的自动作文评分方法
CN112149428A (zh) 基于语义分析和深度学习的智能写作辅助系统
Ma et al. Improving Chinese spell checking with bidirectional LSTMs and confusionset-based decision network
Wang et al. Design of an Intelligent Support System for English Writing Based on Rule Matching and Probability Statistics.
CN101251840A (zh) 一种基于语义模板的问题自动翻译方法及其系统
CN114492469A (zh) 一种翻译方法、翻译装置和计算机可读存储介质
He et al. [Retracted] Application of Grammar Error Detection Method for English Composition Based on Machine Learning
Kasmuri et al. Building a Malay-English code-switching subjectivity corpus for sentiment analysis
US9311302B2 (en) Method, system and medium for character conversion between different regional versions of a language especially between simplified chinese and traditional chinese
Dash et al. Designing a generic scheme for etymological annotation: A new type of language corpora annotation
Mei Research on Intelligent Analysis and Judgment of English Word Part of Speech Based on Improved GLR Algorithm
CN115422949B (zh) 一种高保真文本主语义提取系统及方法
CN113326694B (zh) 基于情感传播的隐式情感词典生成方法
Hosoda Hawaiian morphemes: Identification, usage, and application in information retrieval
Peng et al. Readability assessment for Chinese L2 sentences: an extended knowledge base and comprehensive evaluation model-based method
MESRET AUTOMATIC QUESTION GENERATION FROM AMHARIC SENTENCES USING A RULE-BASED APPROACH

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination