CN116457773A - 阅读支援系统及阅读支援方法 - Google Patents

阅读支援系统及阅读支援方法 Download PDF

Info

Publication number
CN116457773A
CN116457773A CN202180073009.3A CN202180073009A CN116457773A CN 116457773 A CN116457773 A CN 116457773A CN 202180073009 A CN202180073009 A CN 202180073009A CN 116457773 A CN116457773 A CN 116457773A
Authority
CN
China
Prior art keywords
specified
words
sentences
word
phrases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180073009.3A
Other languages
English (en)
Inventor
桃纯平
高濑奈津子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Semiconductor Energy Laboratory Co Ltd
Original Assignee
Semiconductor Energy Laboratory Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Semiconductor Energy Laboratory Co Ltd filed Critical Semiconductor Energy Laboratory Co Ltd
Publication of CN116457773A publication Critical patent/CN116457773A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Abstract

本发明的一个方式提供一种高精度地提供用户所需要的信息的文件的阅读支援系统。本发明的一个方式提供一种阅读支援系统,该阅读支援系统接收指定文件,使用指定文件所包含的词句制作表示指定文件的结构的第一图表,输出两个以上的第一图表所包含的词句,从输出的词句中接收多个指定词句,并且使用多个指定词句探索第一图表,并输出探索结果。可以作为探索结果至少输出示出第一图表中的多个指定词句中的任何两个之间的最短路径的第二图表。最短路径是经过至少一个补充词句连接多个指定词句中的任何两个的路径。补充词句是与多个指定词句不同的词句。

Description

阅读支援系统及阅读支援方法
技术领域
本发明的一个方式涉及一种文件的阅读支援系统及阅读支援方法。
注意,本发明的一个方式不局限于上述技术领域。作为本发明的一个方式的技术领域的一个例子,可以举出半导体装置、显示装置、发光装置、蓄电装置、存储装置、电子设备、照明装置、输入装置(例如,触摸传感器等)、输入输出装置(例如,触摸面板等)以及上述装置的驱动方法或制造方法。
背景技术
在阅读文件时,读文件的方法根据读者的目的或文件种类而不同。有时读文件整体,有时为了检索读者所需的信息而从文件检索记载有所需信息的部分只读该部分就足够。作为从文件检索所需的信息的方法,有使用目录或索引的方法。在是被电子化的文件时,也有用关键词的单词检索而找到所需信息的方法。另外,提出了根据被设定的规则进行文件的结构分析的方法(专利文献1)。
[先行技术文献]
[专利文献]
[专利文献1]日本专利申请公开第2014-219833号公报
发明内容
发明所要解决的技术问题
在利用目录或索引时,当在目录或索引中没有要直接检索的词句时效率不好。通过利用关键词检索文本而可以从文件整体检索包括关键词的句子或段落,但是有时不能有效地找到所需的信息。作为不能有效地找到的原因,可以举出:找到关键词的部分太多而达到所需信息需要太长时间;不能用单个关键词缩小所需信息的范围;找不到合适关键词;等。另外,在根据规则进行文件的结构分析时,读取对象的结构被限制,所以难以对应于具有各种结构的文件。本发明的一个方式解决上述问题中的至少一个。
本发明的一个方式的目的之一是提供一种高精度地提供用户所需要的信息的文件的阅读支援系统或文件的阅读支援方法。本发明的一个方式的目的之一是提供一种支援用户的文件理解的阅读支援系统或阅读支援方法。本发明的一个方式的目的之一是提供一种用户容易操作的文件的阅读支援系统或文件的阅读支援方法。
注意,这些目的的记载不妨碍其他目的的存在。本发明的一个方式并不需要实现所有上述目的。可以从说明书、附图、权利要求书的记载中抽取上述目的以外的目的。
解决技术问题的手段
本发明的一个方式是一种包括接收部、处理部以及输出部的阅读支援系统。接收部具有接收指定文件的功能及接收多个指定词句的功能。处理部具有使用指定文件所包含的词句制作表示指定文件的结构的第一图表(graph)的功能及使用多个指定词句探索第一图表的功能。输出部具有输出第一图表所包含的多个词句的功能及输出第一图表的探索结果的功能。多个指定词句为第一图表所包含的多个词句中的至少一部分。
优选的是,输出部作为探索结果至少输出示出第一图表中的多个指定词句中的任何两个之间的最短路径的第二图表。优选的是,输出部具有输出指定文件中的包含两个以上的多个指定词句的段落中的包含指定词句的句子的功能。优选的是,最短路径是经过至少一个补充词句连接多个指定词句中的任何两个的路径,并且补充词句是与多个指定词句不同的词句。优选的是,输出部具有输出指定文件中的包含多个指定词句中的至少一个和补充词句中的至少一个的段落中的包含指定词句和补充词句中的至少一方的句子的功能。
另外,优选的是,输出部作为探索结果至少输出示出第一图表中的多个指定词句的每一个之间的最短路径的第二图表。优选的是,输出部具有输出指定文件中的包含两个以上的多个指定词句的段落中的包含指定词句的句子的功能。优选的是,连接多个指定词句中的任何两个的最短路径是经过至少一个补充词句连接两个指定词句的路径,并且补充词句是与多个指定词句不同的词句。优选的是,输出部具有输出指定文件中的包含多个指定词句中的至少一个和补充词句中的至少一个的段落中的包含指定词句和补充词句中的至少一方的句子的功能。
优选的是,本发明的一个方式的阅读支援系统还包括储存探索结果的存储部。
本发明的一个方式是一种阅读支援方法,包括:接收指定文件;使用指定文件所包含的词句制作表示指定文件的结构的第一图表;输出两个以上的第一图表所包含的词句;从输出的词句中接收多个指定词句;以及使用多个指定词句探索第一图表,并输出探索结果。
优选的是,作为探索结果至少输出示出第一图表中的多个指定词句中的任何两个之间的最短路径的第二图表。优选的是,与探索结果一起输出指定文件中的包含两个以上的多个指定词句的段落中的包含指定词句的句子。优选的是,最短路径是经过至少一个补充词句连接多个指定词句中的任何两个的路径,并且补充词句是与多个指定词句不同的词句。优选的是,与探索结果一起输出指定文件中的包含多个指定词句中的至少一个和补充词句中的至少一个的段落中的包含指定词句和补充词句中的至少一方的句子。
另外,优选的是,作为探索结果至少输出示出第一图表中的多个指定词句的每一个之间的最短路径的第二图表。优选的是,与探索结果一起输出指定文件中的包含两个以上的多个指定词句的段落中的包含指定词句的句子。优选的是,连接多个指定词句中的任何两个的最短路径是经过至少一个补充词句连接两个指定词句的路径,并且补充词句是与多个指定词句不同的词句。优选的是,与探索结果一起输出指定文件中的包含多个指定词句中的至少一个和补充词句中的至少一个的段落中的包含指定词句和补充词句中的至少一方的句子。
发明效果
根据本发明的一个方式,可以提供一种高精度地提供用户所需要的信息的文件的阅读支援系统或文件的阅读支援方法。根据本发明的一个方式,可以提供一种支援用户的文件理解的阅读支援系统或阅读支援方法。根据本发明的一个方式,可以提供一种用户容易操作的文件的阅读支援系统或文件的阅读支援方法。
注意,这些效果的记载不妨碍其他效果的存在。本发明的一个方式并不一定必须具有所有上述效果。可以从说明书、附图、权利要求书的描述中抽取上述效果外的效果。
附图简要说明
图1是示出阅读支援系统的一个例子的图。
图2是示出阅读支援方法的一个例子的图。
图3A至图3D是示出阅读支援方法的一个例子的图。
图4A至图4E是示出阅读支援方法的一个例子的图。
图5A至图5C是示出图表的一个例子的图。
图6是示出输出内容的一个例子的图。
图7是示出图表的一个例子的图。
图8是示出阅读支援系统的一个例子的图。
图9是示出阅读支援系统的一个例子的图。
实施发明的方式
参照附图对实施方式进行详细说明。注意,本发明不局限于以下说明,所属技术领域的普通技术人员可以很容易地理解一个事实就是其方式及详细内容在不脱离本发明的宗旨及其范围的情况下可以被变换为各种各样的形式。因此,本发明不应该被解释为仅局限在以下所示的实施方式所记载的内容中。
注意,在以下说明的发明的结构中,在不同的附图中共同使用相同的附图标记来表示相同的部分或具有相同的功能的部分,而有时省略其重复说明。此外,当表示具有相同的功能的部分时有时使用相同的阴影线,而不特别附加附图标记。
另外,为了便于理解,有时附图中示出的各构成要素的位置、大小及范围等并不表示其实际的位置、大小及范围等。因此,所公开的发明不一定局限于附图所公开的位置、大小及范围等。
注意,根据情况或状况,可以互相替换用语“膜”和“层”。例如,有时可以将“导电层”变换为“导电膜”。此外,有时可以将“绝缘膜”变换为“绝缘层”。
(实施方式1)
在本实施方式中,参照图1至图7说明本发明的一个方式的阅读支援系统及阅读支援方法。
在本发明的一个方式的阅读支援系统中,接收指定文件,使用指定文件所包含的词句制作表示指定文件的结构的第一图表,输出两个以上的第一图表所包含的词句。并且,接收所输出的词句中的多个指定词句,使用该多个指定词句探索第一图表,输出探索结果。注意,在本说明书等中,图表也可以说是图表结构。
在制作第一图表时,可以直接连接在文件内存在于彼此靠近的位置的各词句。例如,当两个词句存在于相同句子中时,可以直接连接该两个词句。另外,例如,当两个词句存在于相同段落中时,可以直接连接该两个词句。另外,例如,当使用两个词句时,在包含一个词句的句子存在于包含另一个词句的句子附近(例如,存在于前后n句子以内(n为1以上的整数))的情况下,可以直接连接该两个词句。如此,通过连接文件中的彼此靠近的词句,可以制作示出文件结构的图表。通过制作这样的图表,可以示出文件中的各词句的相关性。
阅读支援系统的用户作为指定文件指定要阅读的文件。并且,用户作为指定词句指定关于要获得的信息的多个关键词。
在此,当对文件进行简单的关键词检索时,读者被要求考虑关键词的同义词、近义词及记载不一致等而选定用于检索的关键词。因此,关键词选定对读者来说是一个负担较重的工作,并且容易产生基于技能不同的差异。另一方面,本发明的一个方式的阅读支援系统在接收指定文件而制作第一图表之后输出第一图表所包含的词句。阅读支援系统的用户可以从所输出的词句中选择关键词。因此,容易选定关键词,不容易产生基于用户的技能不同的差异,从而可以从文件迅速地找到所需要的信息。
另外,即便读者选定多个关键词,有时各关键词也分散在文件内而不容易理解所选定的多个关键词的关系。例如,即便利用书籍的索引参照多个关键词的记载部分,有时不能够连接内容。因此,在进一步增加关键词或者阅读所参照的多个页之间的记载等的情况下,有时检索及阅读花费很长时间。
在本发明的一个方式的阅读支援系统中,通过使用所接收的多个指定词句探索第一图表,可以输出示出多个指定词句的相关性的第二图表。因此,用户可以容易掌握指定词句的相关性。另外,本发明的一个方式的阅读支援系统可以抽出被用户指定的包含多个指定词句的句子并将其输出。用户可以通过阅读被抽出的句子来能够高效地获得所需要的信息。
本发明的一个方式的阅读支援系统可以提供第一图表中的多个指定词句的每一个之间的最短路径。例如,通过输出示出该最短路径的第二图表,可以向用户提供多个指定词句的相关性。
例如,第一指定词句与第二指定词句之间的最短路径有时包含其他指定词句。用户可以掌握多个指定词句的相关性而充分理解文件内容。
另外,该最短路径有时包含与多个指定词句不同的补充词句。如此,通过提供用户没有指定的补充词句,可以促进文件内容的掌握及理解。用户可以通过掌握补充词句本身甚至掌握补充词句与指定词句的相关性而进一步充分理解文件内容。补充词句是指定文件所包含的词句(即,第一图表所包含的词句)且是与指定词句不同的词句。
本发明的一个方式的阅读支援系统可以与第二图表一起输出指定文件中的包含指定词句的句子。此时,例如,可以输出包含任何指定词句的所有句子。然而,根据指定词句而所输出的句子过多,有时直到达到用户所需要的信息为止花费很长时间。
于是,本发明的一个方式的阅读支援系统优选基于各最短路径从文件抽出句子并将其输出。
例如,可以输出指定文件中的包含两个以上的多个指定词句的段落中的包含指定词句的句子。另外,例如,可以输出指定文件中的包含多个指定词句中的至少一个和补充词句中的至少一个的段落中的包含指定词句和补充词句中的至少一方的句子。
因此,用户能够高效地确认在掌握多个指定词句的相关性时需要的句子。并且,可以迅速地获得所需要的信息。
注意,本发明的一个方式的阅读支援系统至少提供多个指定词句中的任何两个之间的最短路径。就是说,本发明的一个方式的阅读支援系统既可以提供一部分的指定词句之间的最短路径,又可以提供所有指定词句之间的最短路径。
例如,有时某些两个指定词句经过其他词句也不连接,由此不能够示出路径。另外,例如,也可以设定两个指定词句的相关性的高低的判断基准,在系统判断两个指定词句的相关性较高的情况下提供该两个指定词句的最短路径。具体而言,在某些两个指定词句的最短路径经过规定数以下的词句连接的情况下,可以判断该两个指定词句的相关性较高。与此相反,在某些两个指定词句的最短路径经过多于规定数的词句连接的情况下,可以判断该两个指定词句的相关性较低。
本发明的一个方式的阅读支援系统也可以用于文件的校阅。例如,有时找到指定词句中的不与其他指定词句连接的独立词句。此时,本发明的一个方式的阅读支援系统也可以作为独立词句输出不与其他指定词句连接的词句。另外,有时所输出的图表的内容与设想的内容不同,例如有相关的指定词句彼此不连接等。此时,有可能在文件中产生误写或非意图性的省略等。如此,通过使用本发明的一个方式的阅读支援系统,可以高效地进行文件的校阅。
另外,本发明的一个方式的阅读支援系统也可以用来掌握多个文件的相关性和不同之处中的一方或双方。例如,在本发明的一个方式的阅读支援系统中,可以对多个指定文件使用各指定文件所包含的词句制作表示各结构的第一图表,探索各第一图表,输出探索结果。通过比较输出结果,用户也可以容易确认多个文件的相关性及不同之处。
另外,本发明的一个方式的阅读支援系统也可以具有对多个文件进行探索结果的比较来提供相关性和不同之处中的至少一方的功能。例如,本发明的一个方式的阅读支援系统作为探索结果可以制作示出各文件中的指定词句间的最短路径的图表。并且,通过使该图表向量化而算出各向量的相似度,可以评价多个文件的相似度。
此时,也可以输出两个以上的各第一图表所包含的词句并按指定文件接收指定词句。另外,也可以接收被所有指定文件共同使用的指定词句。注意,当在某个指定文件所包含的词句与另一个指定文件之间存在近义词或同义词时,优选使这些词句关联。例如,当使“绝缘膜”与“绝缘层”关联且作为指定词句选择“绝缘膜”时,也可以在某个指定文件中使用“绝缘膜”探索图表,在另一个指定文件中使用“绝缘层”探索图表。
<阅读支援系统1>
图1是阅读支援系统100的方框图。阅读支援系统100包括接收部110、存储部120、处理部130、输出部140及传送通道150。
阅读支援系统100也可以设置在用户所利用的个人计算机等的信息处理装置中。或者,也可以采用在服务器中设置阅读支援系统100的处理部而从客户PC经由网络访问来利用的结构。
[接收部110]
接收部110接收指定文件。另外,接收部接收指定词句。向接收部110供应的数据通过传送通道150供应到存储部120和处理部130中的一方或双方。
在本说明书等中,在没有特别的记载的情况下,文件是利用自然语言的现象的记载,被电子化而机械可读。例如,作为文件可以举出专利申请文件、判例、合同、条款、产品手册、小说、出版物、白皮书、技术文件等,但是不局限于此。
[存储部120]
存储部120具有储存处理部130所执行的程序的功能。另外,存储部120优选具有储存处理部130所生成的图表的功能。图表优选与文件关联以便能够识别该文件是从哪个文件制作的。另外,存储部120也可以具有储存处理部130所生成的运算结果及推导结果以及向接收部110输入的数据等的功能。
存储部120包括易失性存储器及非易失性存储器中的至少一方。作为易失性存储器可以举出DRAM(Dynamic RandomAccess Memory:动态随机存取存储器)及SRAM(StaticRandomAccess Memory:静态随机存取存储器)等。作为非易失性存储器可以举出ReRAM(Resistive RandomAccess Memory:电阻随机存取存储器,也称为阻变式存储器)、PRAM(Phase-change RandomAccess Memory:相变存储器)、FeRAM(FerroelectricRandomAccess Memory:铁电随机存取存储器)、MRAM(Magnetoresistive Random AccessMemory:磁阻随机存取存储器,也称为磁阻式存储器)及快闪存储器等。另外,存储部120也可以包括记录媒体驱动器。作为记录媒体驱动器可以举出硬盘驱动器(Hard Disk Drive:HDD)及固态驱动器(Solid State Drive:SSD)等。
存储部120也可以包括包含文件数据的数据库。
另外,阅读支援系统100也可以具有从存在于系统外部的数据库取出文件数据的功能。例如,阅读支援系统也可以具有从存在于系统外部的数据库取出数据的功能。
另外,阅读支援系统100也可以具有从其中包括的数据库和存在于外部的数据库的双方取出数据的功能。
数据库例如可以包含文本数据和图像数据中的一方或双方。
另外,也可以使用辅助存储器和文件服务器中的一方或双方而代替数据库。例如,在利用文件服务器所包括的文件时,数据库优选具有文件服务器所保存的文件的路径。
例如,作为数据库可以举出申请数据库。作为申请可以举出专利申请、实用新型注册申请及外观设计注册申请等根据知识财产的申请。对各申请的审查状况如公开的有无、专利局的待定申请的有无及注册的有无等没有限制。例如,申请数据库可以包括审查前的申请、审查中的申请和注册后的申请中的至少一个,也可以包括其中所有申请。
例如,申请数据库优选包括多个专利申请的说明书和权利要求书中的一方或双方。说明书及权利要求书例如被保存为文本数据。
申请数据库也可以包括用来识别申请的申请管理号码(包括在公司内独自赋予的号码)、用来识别同族申请的同族申请管理号码、申请号码、公开号码、注册号码、附图、摘要、申请日、优先日、公开日、审查状况、分类(专利分类、实用新型分类等)、类别和关键词等中的至少一个。在接收指定文件时,这些信息的每一个也可以用于文件的指定。或者,这些信息的每一个也可以与处理部130的处理结果一起输出。
此外,可以由数据库管理书籍、杂志、报纸及论文等各种文件。数据库至少包含文件的文本数据。数据库也可以还包括各文件的识别号码、题目、发行日等日期、著者和出版社等中的至少一个。在接收指定文件时,这些信息的每一个也可以用于文件的指定。或者,这些信息的每一个也可以与处理部130的处理结果一起输出。
[处理部130]
处理部130具有使用从接收部110和存储部120中的一方或双方供应的数据进行运算及推导等处理的功能。另外,处理部130具有使用数据库所包含的各种数据进行处理的功能。处理部130可以将运算结果及推导结果等处理结果供应到存储部120和输出部140中的一方或双方。
处理部130具有进行形态分析的功能。换言之,处理部130具有将文件所包含的各句子分割为在语言中表示意义的最小单位(也称为标记、词素、单词等)而判断各标记的词类的功能。注意,也可以将各句子分割为最小单位的处理称为词汇分析。
处理部130优选具有进行复合词分析的功能。换言之,优选具有考虑复合词(复合名词等)而进行形态分析的功能。例如,处理部130优选具有如下功能:为了将在一个句子中连续的名词组合为一起而结合几个标记,由此词类生成作为复合名词的新标记(再次定义标记)。注意,即使标记的词类为复合名词,有时该标记的词类也可以简单地称为名词。
另外,处理部130优选具有算出各标记之间的距离的功能。例如,处理部130优选取得两个标记在相同句子中的信息或两个标记在相同段落中的信息等。另外,处理部130优选能够算出两个标记远离多少段落、句子、单词或字符串。
另外,处理部130优选具有取得各标记的相关词的功能。作为相关词,可以举出近义词、同义词、上位词及下位词等。另外,处理部130优选具有算出各标记之间的相似度的功能。
相关词例如可以利用概念词典等词典取得。该词典可以包含在阅读支援系统中或系统外部。概念词典是附有单词的分类、与其他单词的关系等的一览表。概念词典也可以是现有概念词典。或者,也可以生成专门于文件的领域的概念词典等。或者,也可以对通用概念词典追加在文件的领域中常用的单词。
另外,也可以使词句向量化(数值化),算出多个词句之间的相似度和距离中的一方或双方,基于多个词句之间的相似度的高低或距离的大小取得节点的相关词。
作为求得两个向量的相似度的方法,可以举出余弦相似度、协方差、无偏协方差及皮尔逊相关系数等。尤其是,优选使用余弦相似度。
作为求得两个向量的距离的方法,可以举出欧式距离、标准(标准化、平均)欧式距离、马氏距离、曼哈顿距离、切比雪夫距离及闵氏距离等。
例如,优选通过机器学习生成词句的分布表示向量。另外,更优选利用神经网络生成词句的分布表示向量。具体而言,优选使用通过对指定文件所包含的词句的分布表示进行机器学习来得到的分布表示向量抽出相关词。或者,优选使用通过对数据库等所包含的文件群所包含的词句的分布表示进行机器学习来得到的分布表示向量抽出相关词。
另外,处理部130也可以具有算出各标记的出现频率的功能。例如,优选算出各标记的TF(TermFrequency:词频)值。TF值能够表示指定文件内的各标记的出现频率。
另外,处理部130也可以具有算出各标记的重要度的功能。例如,优选算出各标记的TF-IDF(Term Frequency-Inverse Document Frequency:词频-逆向文件频率)值。IDF值是指标记在一部分的文件中集中地出现的频率。在较多文件中出现的标记的IDF值较小,仅在一部分的文件中出现的标记的IDF值较大。例如,优选使用数据库所包含的文件算出标记的IDF值。通过求出各标记的TF值与IDF值之积,可以算出用来判断该标记是否成为指定文件的特征的标记的得分。
处理部130具有使用文件所包含的词句制作表示文件结构的图表的功能。
图表包括节点及边。节点及边可以各自具有签条。作为节点的签条,可以使用上述标记。例如,可以将词类为名词(包括复合名词)的标记用作节点的签条。作为边的签条,可以使用上述各标记之间的距离和各标记的相关词中的一方或双方。
作为图表,都可以制作使用具有方向的边的有向图表和使用不具有方向的边的无向图表。
多个节点由边连接。两个节点之间的边可以为一个或多个。当显示图表时,边可以使用直线和曲线中的一方或双方表示。
另外,也可以由多个图表表示一个文件的结构。例如,也可以使用有向图表和无向图表的双方表示一个文件的结构。
不具有方向的边优选连接两个节点以能够理解文件中的两个节点的相关。作为节点的连接条件,可以举出:相同句子中的节点由边彼此连接;相同段落中的节点由边彼此连接;规定距离(例如,规定单词数或规定文字数)内的节点由边彼此连接;等。
在制作有向图表时,处理部130优选具有进行句法分析的功能。换言之,处理部130优选具有如下功能:将文件所包含的各句子分割为标记,判断各标记的词类,判断各标记的依存关系。注意,句法分析所包含的一部分的处理也可以说上述词汇分析或形态分析。通过进行句法分析,可以在有向图表中以箭头表示依存关系的方向。
在制作有向图表时,例如边也可以从先出现的节点朝向然后出现的节点。另外,也可以基于通过句法分析取得的依存关系、上位词与下位词的关系、出现频率的高低或单词的重要度的高低决定边的方向。
图表也可以根据标记之间的依存关系而按规则制作。另外,图表也可以使用利用机器学习的学习完毕模型制作。例如,也可以使用条件随机场(Conditional randomfield:CRF)进行根据标记一览表而对节点及边赋予签条的机器学习。由此,可以根据标记一览表而对节点及边赋予签条。此外,也可以使用递归神经网络(Recurrent NeuralNetwork:RNN)、长短期记忆(Long short-term memory:LSTM)等进行通过输入标记一览表来输出节点及边的方向的Seq2Seq模型学习。由此,可以根据标记一览表而输出节点及边的方向。
另外,处理部130具有探索所制作的图表的功能。例如,处理部130可以求出多个词句的每一个之间的最短路径。作为求出最短路径的方法,可以举出迪杰斯特拉算法、贝尔曼-福特算法及弗洛依德算法(Floyd-Warshall算法)等。例如,所包括的节点(词句)的个数最少的路径可以被看作最短路径。
另外,处理部130具有制作示出多个指定词句的每一个之间的最短路径的图表的功能。处理部130所制作的图表由输出部140输出。
另外,处理部130优选具有使作为探索结果的图表(例如,示出多个指定词句的每一个之间的最短路径的图表)向量化的功能。作为使图表向量化的方法,可以举出Weisfeiler-Lehman核等。
另外,处理部130优选具有算出向量的相似度的功能。因此,可以使作为多个文件的探索结果的图表向量化而算出多个文件的相似度。
注意,在求出多个文件的相似度时,通过利用使标记抽象化来制作的图表,有时可以高精度地求出多个文件的相似度。通过使标记抽象化,可以在概念上掌握文件。因此,不容易受到文件的结构及表示的影响而可以基于文件的概念算出相似度。
另一方面,为了用户准确地阅读文件,优选提供在文件中使用的词句本身。由此,处理部130也可以制作用于阅读支援的不使标记抽象化而制作的图表以及用于相似度算出的使标记抽象化而制作的图表的双方。
注意,使标记抽象化是指将标记置换成代表词或上位词。为了取得代表词及上位词,既可利用概念词典,又可通过机器学习进行分类。例如,通过使标记以该标记所包含的词素矢量化并使用分类器进行分类,使标记抽象化。作为该分类器,可以使用如决策树、支持向量机、随机森林、多层感知器等算法。具体而言,“氧化物半导体”、“非晶半导体”、“硅半导体”以及“GaAs半导体”可以被分类为“半导体”。此外,“氧化物半导体层”、“氧化物半导体膜”、“非晶半导体层”、“非晶半导体膜”、“硅半导体层”、“硅半导体膜”、“GaAs半导体层”以及“GaAs半导体膜”也可以被分类为“半导体”。
处理部130例如可以包括运算电路。处理部130例如可以包括中央处理器(CPU:Central Processing Unit)。
处理部130也可以包括DSP(Digital Signal Processor:数字信号处理器)、GPU(Graphics Processing Unit:图形处理器)等微处理器。微处理器也可以由FPGA(FieldProgrammable Gate Array:现场可编程门阵列)、FPAA(Field ProgrammableAnalog Array:现场可编程模拟阵列)等PLD(Programmable Logic Device:可编程逻辑器件)实现。处理部130通过由处理器解释且执行来自各种程序的指令,可以进行各种数据处理及程序控制。可由处理器执行的程序储存在处理器所包括的存储器区域及存储部120中的至少一个。
处理部130也可以包括主存储器。主存储器包括RAM(Random Access Memory:随机存取存储器)等易失性存储器及ROM(Read Only Memory:只读存储器)等非易失性存储器中的至少一个。
作为RAM,例如使用DRAM、SRAM等,该RAM分配有虚拟存储空间作为处理部130的工作空间,并用于处理部130。储存在存储部120中的操作系统、应用程序、程序模块、程序数据及查找表等在执行时被加载于RAM中。处理部130直接存取并操作被加载于RAM中的这些数据、程序及程序模块。
ROM可以储存不需要改写的BIOS(Basic Input/Output System:基本输入/输出系统)及固件等。作为ROM,可以举出掩模ROM、OTPROM(One Time Programmable ReadOnlyMemory:一次可编程只读存储器)、EPROM(Erasable Programmable Read OnlyMemory:可擦除可编程只读存储器)等。作为EPROM,可以举出通过紫外线照射可以消除存储数据的UV-EPROM(Ultra-Violet Erasable Programmable Read Only Memory:紫外线-可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read OnlyMemory:电子式可抹除可编程只读存储器)、快闪存储器等。
阅读支援系统优选至少在其一部分的处理中利用人工智能(AI:ArtificialIntelligence)。
阅读支援系统尤其优选使用人工神经网络(ANN:Artificial Neural Network,以下有时简称为神经网络)。神经网络可以由电路(硬件)或程序(软件)实现。
在本说明书等中,神经网络是指模拟生物的神经回路网,通过学习决定神经元之间的结合强度,由此获得问题解决能力的所有模型。神经网络包括输入层、中间层(隐藏层)及输出层。
在本说明书等中,在说明神经网络时,有时将根据已经有的信息决定神经元之间的结合强度(也称为权重系数)称为“学习”。
在本说明书等中,有时将使用通过学习得到的结合强度构成神经网络,从该结构导出新的结论称为“推导”。
[输出部140]
输出部140基于处理部130的处理结果输出信息。例如,可以将处理部130的运算结果和推导结果中的一方或双方供应到阅读支援系统100的外部。另外,输出部140可以基于处理部130的处理结果输出数据库所包含的各种数据。输出部140可以向用户所使用的显示器、扬声器等输出信息。
[传送通道150]
传送通道150具有传送数据的功能。接收部110、存储部120、处理部130及输出部140之间的数据收发可以通过传送通道150进行。
参照图2至图7说明本发明的一个方式的阅读支援系统的阅读支援方法。
<阅读支援方法>
本发明的一个方式的阅读支援方法包括图2所示的步骤S1至步骤S6的处理。
[步骤S1]
在步骤S1中,接收指定文件。指定文件例如为用户要阅读的文件。指定文件可以为一个或多个。
用户可以直接输入指定文件的文本数据。另外,也可以与文本数据一起输入指定文件所包含的附图和表中的一方或双方的图像数据。
注意,在指定文件的数据为文本数据以外的数据(声音数据或图像数据)的情况下,在进入步骤S2之前将声音数据或图像数据转换为文本数据。
另外,在指定文件为数据库等所包含的文件时,用户通过输入指定文件的信息(检索数据库)可以指定要阅读的文件。阅读支援系统基于用户所输入的信息从数据库等取出关于指定文件的数据(具体而言,以后的处理所需要的数据)。作为指定文件的信息,可以举出文件的识别号码及题目等。
另外,在要阅读指定文件的一部分(例如,特定章节)的情况等下,用户也可以指定文件的一部分。
[步骤S2]
在步骤S2中,使用指定文件所包含的词句制作表示指定文件的结构的图表。在指定多个指定文件的情况下,按指定文件分别制作图表。另外,可以对一个指定文件制作一个以上的图表。
在制作无向图表时,首先,对指定文件所包含的句子进行形态分析。因此,各句子被分割为标记,判断各标记的词类。
在制作有向图表时,首先,对指定文件所包含的句子进行句法分析。因此,各句子被分割为标记,判断各标记的词类,并且判断各标记的依存关系。
在步骤S2中,优选进行复合词分析。就是说,优选的是,通过在判断标记的词类之后结合几个标记来生成新标记。例如,可以将在一个句子中连续的名词组合在一起来生成词类为复合名词的新标记。
在制作图表时,例如,可以直接连接在文件内存在于彼此靠近的位置的词句。各标记用于节点的签条,各节点由边连接。可以适当地决定节点由边彼此连接的条件。
例如,可以根据用于节点的签条的各标记的文件内的距离决定由边连接的节点。
例如,当两个词句存在于相同句子中时,可以直接连接该两个词句。另外,例如,当两个词句存在于相同段落中时,可以直接连接该两个词句。另外,例如,当使用两个词句时,在包含一个词句的句子存在于包含另一个词句的句子附近(例如,存在于前后n句子以内(n为1以上的整数,优选为1以上且5以下的整数,更优选为3以上且5以下的整数))的情况下,可以直接连接该两个词句。
另外,在制作有向图表时,为了决定边的方向,也可以算出各标记的出现频率和重要度中的一方或双方。
在步骤S2中,优选取得标记的距离的信息及根据标记的相关性的信息中的一方或双方。
当使图表可见化时,所取得的标记的距离的信息及根据标记的相关性的信息可以作为边的签条显示为文字。或者,也可以根据距离的大小决定边的颜色或粗细。或者,也可以根据相关性的强度决定边的颜色或粗细。
例如,关于两个标记的距离的信息,可以登录如下信息作为边的信息:是否两个标记在相同句子中;是否两个标记在相同段落中;两个标记远离多少段落、句子、单词或字符串;等。
例如,关于两个词句的相关性的信息,可以将如下信息记载于边的签条:一个词句是另一个词句的相关词;以及两个词句的相关度;等。作为相关词,可以举出近义词、同义词、上位词及下位词等。另外,作为边的信息可以登录示出两个词句的相关性的句子中的其他标记(名词短语、动词短语、副词短语等的词句)。
参照图3A至图3D说明使日语的句子图表化的例子。注意,图3A至图3D示出日语和与其对应的罗马字。
图3A示出句子300,即“SANKABUTSUHANDOUTAISOUHAZETSUENTAISOUNOJOUHOUNIARU”。
在步骤S2中,通过对句子300进行形态分析,将句子300分割为多个标记,判断各标记的词类。
如图3B所示,句子300被分割为标记301至标记312的12个标记。注意,图3B的各标记之下记载有词类。
并且,进行复合词分析,将连续的名词组合在一起。因此,如图3C所示,句子300由7个标记构成。
具体而言,图3B所示的标记301的字符串为“SANKA”,标记302的字符串为“BUTSU”,标记303的字符串为“HANDOUTAI”,标记304的字符串为“SOU”。这些标记301至标记304的词类都为名词。由此,如图3C所示,将它们组合为一个标记321。标记321的字符串为“SANKABUTSUHANDOUTAISOU”,词类为名词(复合名词)。
另外,图3B、图3C所示的标记305的字符串为“HA”,词类为助词。
另外,图3B所示的标记306的字符串为“ZETSUEN”,标记307的字符串为“TAI”,标记308的字符串为“SOU”。这些标记306至标记308的词类都为名词。由此,如图3C所示,将它们组合为一个标记322。标记322的字符串为“ZETSUENTAISOU”,词类为名词(复合名词)。
另外,图3B、图3C所示的标记309的字符串为“NO”,词类为助词。另外,标记310的字符串为“JOUHOU”,词类为名词。另外,标记311的字符串为“NI”,词类为助词。另外,标记312的字符串为“ARU”,词类为动词。
接着,在步骤S2中,使句子300图表化。图3D示出使句子300图表化的例子。在此示出如下例子,即将词类为名词的标记321及标记322用于节点323及节点324的签条,将词类为名词的标记310用于边的签条325。注意,边的签条325也可以表示节点间的距离的信息和根据节点的相关性的信息等中的至少一个而代替标记。或者,边的签条325除了标记以外还表示节点间的距离的信息和根据节点的相关性的信息等中的至少一个。
图3D所示的箭头是从节点323到节点324的箭头。就是说,箭头的起点为在句子300中先出现的标记,箭头的终点为然后出现的标记。注意,箭头方向的决定方法不局限于此,可以参照上述例子。因此,根据情况,箭头的起点也可以为节点324,箭头的终点也可以为节点323。但是,箭头方向的决定方法优选在图表内统一。
通过对文件所包含的各句子进行上述处理,可以由一个图表表示文件整体的结构。其结果是,节点323和节点324中的一方或双方还可以经过存在于其他句子中的词句和边连接。注意,也可以由一个图表表示文件的一部分。另外,也可以按文件的章节制作图表。就是说,也可以从一个文件制作多个图表。
参照图4A至图4E说明使英语的句子图表化的例子。
图4A示出句子330,即“Asemiconductor device comprising:an oxidesemiconductor layer over an insulator layer.”。
在步骤S2中,对文件进行清理处理。通过清理处理,去除包含在文件内的噪声。例如,该清理处理是指删除分号、将冒号置换成逗号等。通过对文件进行清理处理,可以提高形态分析的精度。通过对句子330进行清理处理,可以删除分号而得到图4B所示的句子330a。
接着,通过对句子330a进行形态分析,将句子330a分割为多个标记。注意,虽然在图4C中没有记载标记的词类,但是通过形态分析可以判断各标记的词类。
如图4C所示,句子330a被分割为标记331至标记342的12个标记。
并且,进行复合词分析,将连续的名词组合在一起。因此,如图4D所示,句子330a由5个标记构成。
具体而言,图4C所示的标记331的字符串为“A”,标记332的字符串为“semiconductor”,标记333的字符串为“device”。标记331的词类为不定冠词,标记332及标记333的词类都为名词。由此,如图4D所示,将它们组合为一个标记351。标记351的字符串为“Asemiconductor device”,词类为名词(复合名词)。
另外,图4C、图4D所示的标记334的字符串为“comprising”。
另外,图4C所示的标记335的字符串为“an”,标记336的字符串为“oxide”,标记337的字符串为“semiconductor”,标记338的字符串为“layer”。标记335的词类为不定冠词,标记336至标记338的词类都为名词。由此,如图4D所示,将它们组合为一个标记352。标记352的字符串为“an oxide semiconductor layer”,词类为名词(复合名词)。
另外,图4C、图4D所示的标记339的字符串为“over”。
另外,图4C所示的标记340的字符串为“an”,标记341的字符串为“insulator”,标记342的字符串为“layer”。标记340的词类为不定冠词,标记341及342的词类都为名词。由此,如图4D所示,将它们组合为一个标记353。标记353的字符串为“an insulator layer”,词类为名词(复合名词)。
接着,在步骤S2中,使句子330图表化。图4E示出使句子330图表化的例子。在此示出如下例子,即将词类为名词的标记351至标记353用于节点354至节点356的签条,将标记334用于节点354与节点355之间的边的签条357,将标记339用于节点355与节点356之间的边的签条358。
图4E所示的一个箭头是从节点354到节点355的箭头,另一个箭头是从节点355到节点356的箭头。就是说,箭头的起点为在句子330中先出现的标记,箭头的终点为然后出现的标记。
注意,在本实施方式中,以使用日语的句子及使用英语的句子为例说明直到从文件制作图表为止的工序,但是对文件的语言没有特别的限制。例如,使用汉语、韩语、德语、法语、俄语、印地语等语言的文件也是同样的,可以通过同样的工序从文件制作图表。
[步骤S3]
在步骤S3中,输出图表所包含的多个词句。
对输出方法没有特别的限制,例如,可以将词句的一览显示为一览表。另外,也可以显示在步骤S2中制作的图表本身。另外,还可以显示图表和一览表的双方。
[步骤S4]
在步骤S4中,接收多个指定词句。
用户从通过步骤S3输出的多个词句中选择多个指定词句。
表1示出在步骤S3中多个词句被显示为一览表且在步骤S4中用户指定词句的例子。如表1所示,下面以作为多个指定词句选择“layer A”和“layer B”这两个的情况为例进行说明。
[表1]
layer A
layer B
layer C
word D
word E
word F
device G
word H
·
·
·
[步骤S5]
在步骤S5中,使用通过步骤S4接收的多个指定词句探索图表。
具体而言,在步骤S5中,可以算出图表中的多个指定词句的每一个之间的最短路径。
在图5A的例子中,摘要示出通过步骤S2制作的图表中的与“layer A”和“layer B”相关的部分。
图5A所示的图表包括节点151至节点156。“layer A”是节点151的签条,“layer B”是节点152的签条。此外,连接节点151与节点152的路径包括具有签条“layer C”的节点153、具有签条“word D”的节点154、具有签条“word E”的节点155及具有签条“word F”的节点156。
注意,在图5至图7中,以斜线的阴影表示作为签条赋予指定词句的节点。
在经过各边所需要的成本相同(边的权重都相同)的情况下,所包括的节点数最少的路径可以说是最短路径。就是说,图5A所示的图表中的连接节点151与节点152的最短路径是经过具有签条“layer C”的节点153的路径(在图5A中以粗线示出的路径)。如此,算出多个指定词句的每一个之间的最短路径。
[步骤S6]
在步骤S6中,输出通过步骤S5探索图表的结果。
图5B示出连接图5A中的节点151与节点152的最短路径。通过输出图5B所示的图表,可以提供“layer A”与“layer B”的相关性。在图5B中,由于“layerA”与“layer B”经过与指定词句不同的补充词句“layer C”连接,所以可以向用户提供用户要掌握的信息与“layer C”的相关性很强的可能性。
另外,可以使用边的签条、方向、颜色和粗细中的至少一个进一步提供与多个指定词句相关的信息。
在图5C中,由有向图表表示图5B中的无向图表。另外,对节点151与节点153之间的边赋予签条159,对节点153与节点152之间的边赋予签条160。
由图5C所示的签条159可知,“layerA”是“layer C”的上位词。“layer A”的具体例子是“半导体层”,“layer C”的具体例子是“氧化物半导体层”。
另外,签条160为“over”,由此可知“layer C”位于“layer B”的上方。如此,可以使用边的信息向用户提供与节点所示的指定词句相关的信息。
注意,即便步骤S5中的图表的探索结果是相同的,在步骤S6中显示的图表也不局限于一个图表。例如,边的长度及与其对应的节点的位置等可以进行几个不同的显示,对其没有特别的限制。
另外,优选基于各最短路径从文件抽出句子并将其输出。
图6示出输出内容的一个例子。图6示出作为指定词句选择“layer A”、“layer B”及“device G”这三个的例子。
图6所示的图表510包括节点151至节点153、节点157及节点158。“layerA”是节点151的签条,“layerB”是节点152的签条,“device G”是节点157的签条。此外,图表510包括具有签条“layer C”的节点153及具有签条“word H”的节点158。
图表510示出多个指定词句的每一个之间的最短路径。可知“layer A”与“layerB”的最短路径是经过补充词句“layer C”连接的路径。可知“layer A”与“device G”的最短路径是直接连接的路径。可知“device G”与“layer B”的最短路径是经过补充词句“wordH”连接的路径。
图6所示的抽出文本520示出基于各最短路径从文件抽出句子的结果。在此,以直接连接相同句子或相同段落所包含的标记来制作图表510的情况为例进行说明。
从抽出文本520可知,“layer A”和“layer C”包含在第10段落的相同句子中,“layer C”和“layer B”包含在第15段落的相同句子中。如此,通过抽出关于指定词句的记载,用户即便在各句子位于远离的位置的情况下也可以高效地阅读文件。注意,在抽出文本520中,既可以仅显示各段落中的包含指定词句的句子,又可以显示包含指定词句的段落的全文。
从抽出文本520可知,“layerA”和“device G”包含在第30段落的相同句子中。注意,无论句子中的指定词句的出现顺序如何都可以进行抽出。
从抽出文本520可知,“layer B”和“word H”包含在第16段落的相同句子中。另外,可知“word H”和“device G”包含在第38段落的彼此不同的句子中。如此,当虽然两个词句包含在不同句子中但是包含在相同段落中时,通过抽出两个句子有时可以提供关于指定词句的更详细的信息。通过抽出关于指定词句的记载,在各句子远离的情况下,用户也可以高效地阅读文件。
另外,当作为抽出文本520抽出的句子包含图、表、算式或化学式等的信息时,优选还显示该图、表、算式或化学式等的图像。因此,可以进一步支援用户的文件理解。例如,优选与图表510及抽出文本520一起显示图6所示的“Fig.X”及“Table Z”或对这些图及表的链接(link)。
图7示出与图6不同的图表的输出例子。
图7示出作为指定词句选择“layerA”、“layer B”、“layer C”、“layer D”及“layerE”这五个的例子。
图7所示的图表包括节点161至节点167。“layerA”是节点161的签条,“layer B”是节点162的签条,“layer C”是节点163的签条,“layer D”是节点164的签条,“layer E”是节点165。此外,图表包括具有签条“word X”的节点166及具有签条“wordY”的节点167。
图7示出各指定词句之间的最短路径,例如,可知“layerA”与“layer B”的最短路径是直接连接的路径。同样地,可知“layer A”与“layer C”的最短路径是直接连接的路径。可知“layerA”与“layer E”的最短路径是经过补充词句“wordY”连接的路径。
在图7中,可知节点164不与其他节点连接。由此可知,在指定文件中,有可能关于“layer D”的记载不足够或者产生误写。
如此,也可以使用图表的探索结果进行文件的校阅。
另外,可知“layer B”与“layer E”的最短路径有如下两种:经过指定词句“layerC”及补充词句“word Y”连接的路径;以及经过补充词句“word X”及补充词句“wordY”连接的路径。在此情况下示出两种最短路径,可以基于该两种最短路径抽出句子。
另外,在指定多个文件的情况下也可以与上述同样地进行图表的制作及探索并将探索结果输出。通过比较输出结果,用户可以容易确认多个文件的相关性及不同之处。
并且,通过使作为探索结果的示出指定词句间的最短路径的图表向量化而算出各向量的相似度,也可以评价多个文件的相似度并向用户提供。
如上所述,本实施方式的阅读支援系统可以提供与用户所指定的文件的多个指定词句具有相关性的图表而向用户提供文件的阅读支援。通过利用系统抽出包含多个指定词句的句子并将其输出,用户可以高效地阅读文件。因此,用户可以从文件迅速地找到所需要的信息。
本实施方式可以与其他实施方式适当地组合。此外,在本说明书中,在一个实施方式中示出多个结构例子的情况下,可以适当地组合该结构例子。
(实施方式2)
在本实施方式中,参照图8及图9说明本发明的一个方式的阅读支援系统。
<阅读支援系统2>
图8是阅读支援系统210的方框图。阅读支援系统210包括服务器220及终端230(个人计算机等)。注意,关于与图1所示的阅读支援系统100相同的构成要素,还可以参照实施方式1的<阅读支援系统1>的说明。
服务器220包括通信部171a、传送通道172、存储部120及处理部130。虽然在图8中未图示,但是服务器220也可以还包括接收部、数据库、输出部和输入部等中的至少一个。
终端230包括通信部171b、传送通道174、输入部115、存储部125、处理部135及显示部145。作为终端230,可以举出平板型个人计算机、笔记本型个人计算机及各种便携式信息终端。另外,终端230也可以是不包括显示部145的台式个人计算机,终端230也可以与被用作显示部145的显示器等连接。
阅读支援系统210的用户将与指定文件相关的信息从终端230的输入部115输入到服务器220。该信息从通信部171b发送到通信部171a。
例如,指定文件的文本数据从通信部171b发送到通信部171a。并且,也可以发送附图、化学式、算式和表中的至少一种的图像数据。另外,例如,指定文件的信息从通信部171b发送到通信部171a。
通信部171a所接收的信息通过传送通道172保存在处理部130所包括的存储器或存储部120中。另外,信息也可以从通信部171a通过接收部(参照图1所示的接收部110)供应到处理部130。
在处理部130中进行实施方式1的<阅读支援方法>所说明的各种处理。因为这些处理被要求高处理能力,所以优选在服务器220所包括的处理部130中进行。处理部130的处理能力优选比处理部135的处理能力高。
处理部130的处理结果通过传送通道172保存在处理部130所包括的存储器或存储部120中。然后,处理结果从服务器220输出到终端230的显示部145。处理结果从通信部171a发送到通信部171b。另外,数据库所包含的各种数据也可以基于处理部130的处理结果从通信部171a发送到通信部171b。另外,处理结果也可以通过输出部(图1所示的输出部140)从处理部130供应到通信部171a。
[通信部171a及通信部171b]
通过使用通信部171a及通信部171b可以在服务器220与终端230间进行数据的收发。作为通信部171a及通信部171b可以使用集线器(Hub)、路由器、调制解调器等。数据的收发可以以有线或无线(例如,电波、红外线等)进行。
[传送通道172及传送通道174]
传送通道172及传送通道174具有传送数据的功能。通信部171a、存储部120及处理部130间的数据的收发可以通过传送通道172进行。通信部171b、输入部115、存储部125、处理部135及输出部140间的数据的收发可以通过传送通道174进行。
[输入部115]
在用户指定文件及词句时,可以使用输入部115。例如,输入部115可以具有操作终端230的功能,具体而言,可以举出鼠标、键盘、触摸面板、麦克风、扫描仪、照相机等。
阅读支援系统210也可以具有将声音数据转换为文本数据的功能。例如,处理部130和处理部135中的至少一方也可以具有该功能。
阅读支援系统210也可以具有光学文字识别(OCR)功能。因此,能够识别图像数据所包含的文字来生成文本数据。例如,处理部130和处理部135中的至少一方也可以具有该功能。
[存储部125]
存储部125也可以储存与指定文件相关的数据和从服务器220供应的数据中的一方或双方。另外,存储部125也可以包含存储部120可包含的数据的至少一部分。
[处理部130及处理部135]
处理部135具有使用从通信部171b、存储部125及输入部115等供应的数据进行运算等的功能。处理部135也可以具有执行能够由处理部130进行的处理中的至少一部分的功能。
处理部130及处理部135各自可以包括在沟道形成区域中包含金属氧化物的晶体管(OS晶体管)和在沟道形成区域中包含硅的晶体管(Si晶体管)中的一方或双方。
另外,在本说明书等中,将在沟道形成区域中使用氧化物半导体或金属氧化物的晶体管称为Oxide Semiconductor(氧化物半导体)晶体管或OS晶体管。OS晶体管的沟道形成区域优选包含金属氧化物。
在本说明书等中,金属氧化物(metal oxide)是指广义上的金属的氧化物。金属氧化物被分类为氧化物绝缘体、氧化物导电体(包括透明氧化物导电体)和氧化物半导体(Oxide Semiconductor,也可以简称为OS)等。例如,在将金属氧化物用于晶体管的半导体层的情况下,有时将该金属氧化物称为氧化物半导体。换言之,在金属氧化物具有放大作用、整流作用和开关作用中的至少一个的情况下,可以将该金属氧化物称为金属氧化物半导体(metal oxide semiconductor),或者可以将其缩称为OS。
沟道形成区域所具有的金属氧化物优选包含铟(In)。在沟道形成区域所具有的金属氧化物包含铟的情况下,OS晶体管的载流子迁移率(电子迁移率)得到提高。另外,沟道形成区域所具有的金属氧化物优选为包含元素M的氧化物半导体。元素M优选是铝(Al)、镓(Ga)和锡(Sn)中的至少一个。作为可用作元素M的其他元素,可以举出硼(B)、硅(Si)、钛(Ti)、铁(Fe)、镍(Ni)、锗(Ge)、钇(Y)、锆(Zr)、钼(Mo)、镧(La)、铈(Ce)、钕(Nd)、铪(Hf)、钽(Ta)及钨(W)等。注意,作为元素M,有时也可以组合多个上述元素。元素M例如是与氧的键能高的元素。元素M例如是与氧的键能高于铟的元素。此外,沟道形成区域所具有的金属氧化物优选包含锌(Zn)。包含锌的金属氧化物有时容易晶化。
沟道形成区域所包含的金属氧化物不局限于包含铟的金属氧化物。半导体层例如也可以是锌锡氧化物或镓锡氧化物等不包含铟且包含锌、镓或锡的金属氧化物等。
处理部130优选包括OS晶体管。由于OS晶体管的关态电流极小,所以通过将OS晶体管用作保持流入被用作存储元件的电容器的电荷(数据)的开关,可以确保长期的数据保持期间。通过将该特性应用于处理部130所包括的寄存器及高速缓冲存储器中的至少一个,可以仅在必要时使处理部130工作,而在其他情况下使之前的处理信息储存在该存储元件,可以关闭处理部130。就是说,实现常闭运算(normally offcomputing),由此可以实现阅读支援系统的低功耗化。
[显示部145]
显示部145具有显示输出结果的功能。作为显示部145,可以举出液晶显示装置、发光显示装置等。作为可用于发光显示装置的发光元件,可以举出LED(Light EmittingDiode:发光二极管)、OLED(Organic LED:有机发光二极管)、QLED(Quantum-dot LED:量子点发光二极管)及半导体激光等。另外,在显示部145中可以使用如下显示装置:采用快门方式或光干涉方式的MEMS(Micro Electro Mechanical Systems:微电子机械系统)元件的显示装置;采用微囊方式、电泳方式、电润湿方式或电子粉流体(注册商标)方式等的显示元件的显示装置;等。
图9是本实施方式的阅读支援系统的示意图。
图9所示的阅读支援系统包括服务器5100及终端(也称为电子设备)。服务器5100与各终端之间的通信可以通过互联网线5110进行。
服务器5100可以使用从终端经过互联网线5110输入的数据进行运算。服务器5100可以将运算结果经过互联网线5110发送到终端。因此,可以减少终端的运算负担。
图9作为终端示出信息终端5300、信息终端5400及信息终端5500。信息终端5300是智能手机等便携式信息终端的一个例子。信息终端5400是平板终端的一个例子。另外,也可以通过信息终端5400与包括键盘的框体5450连接来将信息终端5400用作笔记本型信息终端。信息终端5500是台式信息终端的一个例子。
通过构成这样的方式,用户可以从信息终端5300、信息终端5400及信息终端5500等访问服务器5100。并且,用户利用通过互联网线5110的通信可以接收服务器5100的管理者所提供的服务。作为该服务,例如可以举出利用本发明的一个方式的阅读支援方法的服务。在该服务中,服务器5100也可以利用人工智能。
本实施方式可以与其他实施方式适当地组合。
[符号说明]
100:阅读支援系统、110:接收部、115:输入部、120:存储部、125:存储部、130:处理部、135:处理部、140:输出部、145:显示部、150:传送通道、151:节点、152:节点、153:节点、154:节点、155:节点、156:节点、157:节点、158:节点、159:签条、160:签条、161:节点、162:节点、163:节点、164:节点、165:节点、166:节点、167:节点、171a:通信部、171b:通信部、172:传送通道、174:传送通道、210:阅读支援系统、220:服务器、230:终端、300:句子、301:标记、302:标记、303:标记、304:标记、305:标记、306:标记、307:标记、308:标记、309:标记、310:标记、311:标记、312:标记、321:标记、322:标记、323:节点、324:节点、325:签条、330a:句子、330:句子、331:标记、332:标记、333:标记、334:标记、335:标记、336:标记、337:标记、338:标记、339:标记、340:标记、341:标记、342:标记、351:标记、352:标记、353:标记、354:节点、355:节点、356:节点、357:签条、358:签条、510:图表、520:抽出文本、5100:服务器、5110:互联网线、5300:信息终端、5400:信息终端、5450:框体、5500:信息终端

Claims (19)

1.一种阅读支援系统,包括:
接收部;
处理部;以及
输出部,
其中,所述接收部具有接收指定文件的功能及接收多个指定词句的功能,
所述处理部具有使用所述指定文件所包含的词句制作表示所述指定文件的结构的第一图表的功能及使用所述多个指定词句探索所述第一图表的功能,
所述输出部具有输出所述第一图表所包含的多个词句的功能及输出所述第一图表的探索结果的功能,
并且,所述多个指定词句为所述第一图表所包含的所述多个词句中的至少一部分。
2.根据权利要求1所述的阅读支援系统,
其中所述输出部作为所述探索结果至少输出示出所述第一图表中的所述多个指定词句中的任何两个之间的最短路径的第二图表。
3.根据权利要求2所述的阅读支援系统,
其中所述输出部具有输出所述指定文件中的包含两个以上的所述多个指定词句的段落中的包含所述指定词句的句子的功能。
4.根据权利要求2或3所述的阅读支援系统,
其中所述最短路径是经过至少一个补充词句连接所述多个指定词句中的任何两个的路径,
并且所述补充词句是与所述多个指定词句不同的词句。
5.根据权利要求4所述的阅读支援系统,
其中所述输出部具有输出所述指定文件中的包含所述多个指定词句中的至少一个和所述补充词句中的至少一个的段落中的包含所述指定词句和所述补充词句中的至少一方的句子的功能。
6.根据权利要求1所述的阅读支援系统,
其中所述输出部作为所述探索结果至少输出示出所述第一图表中的所述多个指定词句的每一个之间的最短路径的第二图表。
7.根据权利要求6所述的阅读支援系统,
其中所述输出部具有输出所述指定文件中的包含两个以上的所述多个指定词句的段落中的包含所述指定词句的句子的功能。
8.根据权利要求6或7所述的阅读支援系统,
其中连接所述多个指定词句中的任何两个的所述最短路径是经过至少一个补充词句连接两个所述指定词句的路径,
并且所述补充词句是与所述多个指定词句不同的词句。
9.根据权利要求8所述的阅读支援系统,
其中所述输出部具有输出所述指定文件中的包含所述多个指定词句中的至少一个和所述补充词句中的至少一个的段落中的包含所述指定词句和所述补充词句中的至少一方的句子的功能。
10.根据权利要求1至9中任一项所述的阅读支援系统,包括储存所述探索结果的存储部。
11.一种阅读支援方法,包括:
接收指定文件;
使用所述指定文件所包含的词句制作表示所述指定文件的结构的第一图表;
输出两个以上的所述第一图表所包含的词句;
从所述输出的词句中接收多个指定词句;以及
使用所述多个指定词句探索所述第一图表,并输出探索结果。
12.根据权利要求11所述的阅读支援方法,
其中作为所述探索结果至少输出示出所述第一图表中的所述多个指定词句中的任何两个之间的最短路径的第二图表。
13.根据权利要求12所述的阅读支援方法,
其中与所述探索结果一起输出所述指定文件中的包含两个以上的所述多个指定词句的段落中的包含所述指定词句的句子。
14.根据权利要求12或13所述的阅读支援方法,
其中所述最短路径是经过至少一个补充词句连接所述多个指定词句中的任何两个的路径,
并且所述补充词句是与所述多个指定词句不同的词句。
15.根据权利要求14所述的阅读支援方法,
其中与所述探索结果一起输出所述指定文件中的包含所述多个指定词句中的至少一个和所述补充词句中的至少一个的段落中的包含所述指定词句和所述补充词句中的至少一方的句子。
16.根据权利要求11所述的阅读支援方法,
其中作为所述探索结果至少输出示出所述第一图表中的所述多个指定词句的每一个之间的最短路径的第二图表。
17.根据权利要求16所述的阅读支援方法,
其中与所述探索结果一起输出所述指定文件中的包含两个以上的所述多个指定词句的段落中的包含所述指定词句的句子。
18.根据权利要求16或17所述的阅读支援方法,
其中连接所述多个指定词句中的任何两个的所述最短路径是经过至少一个补充词句连接两个所述指定词句的路径,
并且所述补充词句是与所述多个指定词句不同的词句。
19.根据权利要求18所述的阅读支援方法,
其中与所述探索结果一起输出所述指定文件中的包含所述多个指定词句中的至少一个和所述补充词句中的至少一个的段落中的包含所述指定词句和所述补充词句中的至少一方的句子。
CN202180073009.3A 2020-10-30 2021-10-15 阅读支援系统及阅读支援方法 Pending CN116457773A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020-182488 2020-10-30
JP2020182488 2020-10-30
PCT/IB2021/059488 WO2022090849A1 (ja) 2020-10-30 2021-10-15 読解支援システム及び読解支援方法

Publications (1)

Publication Number Publication Date
CN116457773A true CN116457773A (zh) 2023-07-18

Family

ID=81383374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180073009.3A Pending CN116457773A (zh) 2020-10-30 2021-10-15 阅读支援系统及阅读支援方法

Country Status (5)

Country Link
US (1) US20240012979A1 (zh)
JP (1) JPWO2022090849A1 (zh)
KR (1) KR20230091995A (zh)
CN (1) CN116457773A (zh)
WO (1) WO2022090849A1 (zh)

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115830A (ja) * 1997-06-20 1999-01-22 Fuji Xerox Co Ltd 文短縮装置及び文短縮プログラムを記録した媒体
JPH11184837A (ja) * 1997-12-11 1999-07-09 Internatl Business Mach Corp <Ibm> 最短経路探索システム
AU2003201799A1 (en) * 2002-01-16 2003-07-30 Elucidon Ab Information data retrieval, where the data is organized in terms, documents and document corpora
JP4259179B2 (ja) * 2003-05-23 2009-04-30 日本電信電話株式会社 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体
US7774198B2 (en) * 2006-10-06 2010-08-10 Xerox Corporation Navigation system for text
US20090024385A1 (en) * 2007-07-16 2009-01-22 Semgine, Gmbh Semantic parser
US8676565B2 (en) * 2010-03-26 2014-03-18 Virtuoz Sa Semantic clustering and conversational agents
US8566273B2 (en) * 2010-12-15 2013-10-22 Siemens Aktiengesellschaft Method, system, and computer program for information retrieval in semantic networks
JP6232736B2 (ja) 2013-05-08 2017-11-22 株式会社リコー 文書読解支援装置、文書読解支援システム、文書読解支援方法およびプログラム
JP6545634B2 (ja) * 2016-04-04 2019-07-17 株式会社東芝 情報処理装置、情報処理方法およびプログラム
RU2639655C1 (ru) * 2016-09-22 2017-12-21 Общество с ограниченной ответственностью "Аби Продакшн" Система для создания документов на основе анализа текста на естественном языке
US10936796B2 (en) * 2019-05-01 2021-03-02 International Business Machines Corporation Enhanced text summarizer

Also Published As

Publication number Publication date
US20240012979A1 (en) 2024-01-11
KR20230091995A (ko) 2023-06-23
WO2022090849A1 (ja) 2022-05-05
JPWO2022090849A1 (zh) 2022-05-05

Similar Documents

Publication Publication Date Title
Shelar et al. Named entity recognition approaches and their comparison for custom ner model
Pham et al. End-to-end recurrent neural network models for vietnamese named entity recognition: Word-level vs. character-level
Song et al. Developing a hybrid dictionary-based bio-entity recognition technique
Helwe et al. Arabic named entity recognition via deep co-learning
Syed et al. Lexicon based sentiment analysis of Urdu text using SentiUnits
CN110569332B (zh) 一种语句特征的提取处理方法及装置
KR20210138266A (ko) 딥러닝 기반 키워드 추출 방법 및 장치
US20220391647A1 (en) Application-specific optical character recognition customization
Abinaya et al. Amrita_cen@ fire-2014: Named entity recognition for indian languages using rich features
CN111133429A (zh) 提取表达以供自然语言处理
Vaissnave et al. Modeling of automated glowworm swarm optimization based deep learning model for legal text summarization
Alsayadi et al. Integrating semantic features for enhancing arabic named entity recognition
CN116457773A (zh) 阅读支援系统及阅读支援方法
Mishra et al. A novel approach to capture the similarity in summarized text using embedded model
Pakray et al. An hmm based pos tagger for pos tagging of code-mixed indian social media text
Goyal et al. Deep learning-based named entity recognition system using hybrid embedding
Harrat et al. Automatic identification methods on a corpus of twenty five fine-grained Arabic dialects
Tarawneh et al. a hybrid approach for indexing and searching the holy Quran
WO2021140406A1 (ja) 文書検索システム、文書を検索する方法
WO2024084365A1 (ja) 文書検索方法、文書検索システム
Gutiérrez-Batista et al. Using word embeddings and deep learning for supervised topic detection in social networks
US20230334097A1 (en) Information Retrieval System And Information Retrieval Method
Gaddamidi et al. Performance analysis of named entity recognition approaches on code-mixed data
WO2021079230A1 (ja) 文書検索システム
US20230078094A1 (en) Search system and search method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination