JP6518981B1 - Translation apparatus, control program for translation apparatus, and translation method using translation apparatus - Google Patents

Translation apparatus, control program for translation apparatus, and translation method using translation apparatus Download PDF

Info

Publication number
JP6518981B1
JP6518981B1 JP2018209280A JP2018209280A JP6518981B1 JP 6518981 B1 JP6518981 B1 JP 6518981B1 JP 2018209280 A JP2018209280 A JP 2018209280A JP 2018209280 A JP2018209280 A JP 2018209280A JP 6518981 B1 JP6518981 B1 JP 6518981B1
Authority
JP
Japan
Prior art keywords
word
translation
language
sentence
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018209280A
Other languages
Japanese (ja)
Other versions
JP2020077134A (en
Inventor
豊 椿
豊 椿
Original Assignee
株式会社椿知財サービス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社椿知財サービス filed Critical 株式会社椿知財サービス
Priority to JP2018209280A priority Critical patent/JP6518981B1/en
Priority to JP2019061814A priority patent/JP7333933B2/en
Application granted granted Critical
Publication of JP6518981B1 publication Critical patent/JP6518981B1/en
Publication of JP2020077134A publication Critical patent/JP2020077134A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】秘密性の高い文書を外部のコンピュータ資源を使いながらも安全に翻訳する翻訳装置を提供する。【解決手段】翻訳装置は、不特定多数が利用する外部のコンピュータであって、第1の言語で記述された文章をインターネットを通じて入力し、それを第2の言語で記述された文章に翻訳する外部コンピュータとの間で通信を行う。翻訳装置は、名詞である単語とその直後に続く参照符号とからなるセット中の単語部分を、その単語に対応する文字列に置き換える第1の置換手段と、第1の置換手段で置き換えが行われた文章を、インターネットを通じて前記外部コンピュータに送信する送信手段と、前記外部コンピュータから、翻訳後の第2の言語で記述された文章をインターネットを通じて受信する受信手段とを備える。【選択図】図1An object of the present invention is to provide a translation apparatus for translating a highly confidential document safely while using external computer resources. A translation apparatus is an external computer used by an unspecified number of people, and inputs a sentence described in a first language through the Internet and translates it into a sentence described in a second language Communicate with an external computer. The translation apparatus is provided with a first substitution means for replacing a word part in a set consisting of a word which is a noun and a reference code immediately following it with a character string corresponding to the word, and a line And transmitting means for transmitting the transmitted text to the external computer through the Internet, and receiving means for receiving the text described in the second language after translation from the external computer through the Internet. [Selected figure] Figure 1

Description

この発明は、翻訳装置、翻訳装置の制御プログラム、および翻訳装置を用いた翻訳方法に関する。   The present invention relates to a translation device, a control program for the translation device, and a translation method using the translation device.

形態素解析や係り受け解析等、機械翻訳(MT:Machine Translation)の基礎となる技術の研究が始まったのは、西暦1950年代のことである。西暦1980年代になると、コンピュータの性能の向上に伴い、ルールベースの機械翻訳技術が、ある程度の実用性を備えるに至った。   Research on technologies underlying machine translation (MT: Machine Translation), such as morphological analysis and dependency analysis, began in the 1950s AD. In the 1980's, with the improvement of computer performance, rule-based machine translation technology came to have some practicality.

西暦1990年代には、統計的機械翻訳(STM:Statistical Base Machine Translation)の手法が開発された。これは、異なる言語間の単語、文章構造の対応を統計的に処理し、翻訳される確率の高い単語、翻訳文を翻訳候補から選択するものである。統計的機械翻訳においては、翻訳モデルにより、元の単語に対応する単語、および単語の語順が確率に従って決定される。さらに、言語モデルによって、翻訳後の単語の正しい並び方が確率に従って決定される。統計的機械翻訳では、翻訳エンジン(翻訳モデルおよび言語モデル)の構築のために、大量の対訳データ(訓練データ)が必要とされる。翻訳エンジンを用いた翻訳文と正解翻訳とを比較することで、翻訳エンジンは適宜チューニングされる。   In the 1990s, statistical machine translation (STM) methods were developed. This is to statistically process the correspondence between words in different languages and sentence structures, and select words having a high probability of being translated, and translated sentences from translation candidates. In statistical machine translation, the translation model determines the word corresponding to the original word and the word order of the word according to the probability. Furthermore, the language model determines the correct arrangement of translated words according to the probability. In statistical machine translation, a large amount of parallel translation data (training data) is required to build a translation engine (translation model and language model). The translation engine is appropriately tuned by comparing the translated sentence using the translation engine with the correct translation.

統計的機械翻訳においては、語順を正しく決定するために、元の言語の文章の構文解析を行い、係り受け関係を利用して、元の言語の単語の語順を予め翻訳先の言語の語順に変換しておく技術が知られている。   In statistical machine translation, in order to determine the word order correctly, the syntactic analysis of the sentences of the original language is performed, and the word order of the words of the original language is previously translated into the word order of the translation target language using the dependency relation. Techniques for converting are known.

西暦2010年代に入り、ニューラルネットワークによるディープラーニングを用いたニューラル機械翻訳(NMT:Neural Machine Translation)が登場した。それは、西暦2015年頃から急速な実用化を遂げ、統計的機械翻訳を置き換えつつある。ニューラル機械翻訳は、一般に翻訳原文の前処理(語順の入れ替えなど)を行わず、文章をニューラルネットワークで直接(end to endに)翻訳するものである。   In the 2010s AD, neural machine translation (NMT: Neural Machine Translation) using deep learning by neural network appeared. It has been rapidly commercialized since around 2015 and is replacing statistical machine translation. Neural machine translation generally translates a sentence directly (end to end) with a neural network without preprocessing (translation of word order, etc.) of the translated text.

ニューラル機械翻訳では、単語はベクトルの実数値として扱われ、数百次元の分散表現として扱われる。すなわちベクトルによって、単語の語義や統語的な情報が表現される(Word Embedding)。1つの元単語とその翻訳単語との意味関係から、他の元単語とその翻訳単語との意味関係をある程度類推することができるため、柔軟な翻訳が可能となっている。   In neural machine translation, words are treated as real values of vectors, and are treated as several-hundred dimensional distributed representations. That is, the vector expresses word sense and syntactic information (Word Embedding). Since the semantic relation between another original word and its translated word can be analogized to a certain extent from the semantic relation between one original word and its translated word, flexible translation is possible.

機械翻訳においては、入力データの長さ(原文の長さ)は一定ではなく、かつ過去に入力したデータを利用する必要がある。このため、ニューラル機械翻訳では、一般にはリカレントニューラルネットワーク(RNN)が利用される。リカレントニューラルネットワークに逐次原文の単語(または文字)を入力し、文末(EOS:End of String)を示すコードが出力されると、一文の翻訳が完了とされる。   In machine translation, the length of the input data (text length) is not constant, and it is necessary to use data input in the past. For this reason, in neural machine translation, a recurrent neural network (RNN) is generally used. When a word (or character) of the original text is sequentially input to the recurrent neural network and a code indicating the end of the sentence (EOS: End of String) is output, the translation of one sentence is completed.

ニューラル機械翻訳においては、ニューロン(ノード)それぞれの重み付け係数が翻訳知識となるため、翻訳のためのテーブル(フレーズテーブルなどの元単語と翻訳単語とを対応付けるテーブル)は必要とされない。ニューラル機械翻訳は、統計的機械翻訳のように、原文の構成単語を置き換え、並べ替えることで翻訳を行うものではなく、学習した言語モデルに整合するように、入力テキストから新たな翻訳文を作り出すものであるといえる。   In neural machine translation, since weighting coefficients of each neuron (node) become translation knowledge, a table for translation (a table for correlating original words and translated words such as a phrase table) is not required. Neural machine translation, like statistical machine translation, does not perform translation by replacing component words of the original text and rearranging, but creates a new translation from the input text so as to match the learned language model. It can be said that it is a thing.

特開2018-120584号公報JP 2018-120584

ルールベースの機械翻訳や統計的機械翻訳と比較して、ニューラル機械翻訳には、翻訳文が流暢である、学習していない文章であっても(Word Embedding等により)柔軟に翻訳することが可能である、という利点がある。   Compared to rule-based machine translation and statistical machine translation, neural machine translation can be translated flexibly (by Word Embedding etc.) even if the sentence is not learned and the translated sentence is fluent It has the advantage of being

しかしながら、ニューラル機械翻訳は、ルールベースの機械翻訳や統計的機械翻訳のように、原文の置き換えによって翻訳を行う技術ではないため、入力文に含まれる情報を過不足なく厳密に翻訳することが難しい(翻訳の抜けが生じる可能性がある)という問題があった。また、翻訳の重複した箇所が出力されることもあった。   However, neural machine translation is not a technique for translation by substitution of the original text like rule-based machine translation and statistical machine translation, so it is difficult to exactly translate the information contained in the input sentence without excess or deficiency There is a problem that (translational omission may occur). In addition, duplicate parts of the translation may be output.

さらに、ニューラル機械翻訳では、統計的機械翻訳で用いられていた、原文の単語の語順を予め翻訳先の言語の語順に変換しておく手法を用いることができないため、これまで用いられてきた学習データ(辞書データ、語順データなど)を利用し難いという問題点があった。   Furthermore, in neural machine translation, it is not possible to use the method of converting the word order of original words, which has been used in statistical machine translation, in advance into the word order of the language to be translated. There is a problem that it is difficult to use data (dictionary data, word order data, etc.).

さらにニューラル機械翻訳では、Word Embeddingにより柔軟な翻訳ができる反面、意味が全く異なる単語が選択されることで、意味の全く異なる翻訳文が作成されることもあった(特に出現頻度の低い語、出現頻度の低い固有名詞など)。また、長い文章、複雑な文章の場合、意味の通じない翻訳文が作成されることもあった。   Furthermore, in neural machine translation, while flexible translation can be performed by Word Embedding, sometimes a completely different translated sentence is created by selecting a word having a completely different meaning (in particular, a word with a low frequency of occurrence, For example, infrequent proper nouns). In addition, in the case of long sentences or complex sentences, translated sentences having meaningless were sometimes created.

さらに、一般にニューラル機械翻訳では、ルールベースの機械翻訳や、統計的機械翻訳とは異なり、翻訳の過程を人間が理解することが困難であり、正確な翻訳文が出力されるか否かを予測し難いという問題があった。これにより、ニューラル機械翻訳では、誤訳が生じやすく、誤訳文が最終結果物として提供されやすいという問題があった。   Furthermore, in general, in neural machine translation, unlike rule-based machine translation or statistical machine translation, it is difficult for a human to understand the process of translation, and it is predicted whether or not an accurate translation will be output. There was a problem that it was difficult to do. As a result, in neural machine translation, mistranslation tends to occur and there is a problem that mistranslations are easily provided as a final result.

多少の誤訳や翻訳の抜けがあっても概要がわかればよい日常会話や、あまり重要ではない情報の伝達のための文書に関しては、内容の正確さよりも、生成される翻訳文の流暢さや柔軟さが重視されることがある。このような文書に対して、ニューラル機械翻訳は極めて有用である。   The fluency and flexibility of the generated translation, rather than the accuracy of the content, for a document for everyday conversation or for the transmission of less important information that only needs an overview even if there are a few mistranslations and translation omissions. May be emphasized. Neural machine translation is very useful for such documents.

一方で、法律、特許などの厳密な正確性が要求される文書については、誤訳や翻訳の抜けは致命的である。このため、ニューラル機械翻訳を用いたとしても誤訳や翻訳の抜けがないかのチェックを相当の時間と労力をかけて行う必要があった。また、チェック不足により、致命的な誤訳や翻訳の抜けが生じ、財産的な損害が生じる可能性があった。   On the other hand, mistranslations and missing translations are fatal for documents that require strict accuracy, such as laws and patents. For this reason, even when using neural machine translation, it has been necessary to check whether there is a mistranslation or omission of translation taking considerable time and effort. In addition, due to the lack of checks, fatal mistranslations and missing translation may occur, which may cause property damage.

また、ニューラル機械翻訳に関する他の課題として、上付き、下付き文字、イタリック、太字、アンダーラインが付された文字など、文字飾りやスタイルの取り扱いで不都合が生じることがある。文章において、例えば上付き文字であれば、HTMLで通常の文字が<sup>〜</sup>のタグ囲まれることで上付き文字であることが示されている場合と、Unicodeなどの文字コードで直接上付き文字が表現されている場合がある。これらが混在されて機械学習に用いられたり、また、翻訳時の文書での文字飾りやスタイルの取り扱いが学習時の取り扱いと異なる場合、誤った翻訳結果が出力される可能性がある。   In addition, as other tasks related to neural machine translation, there may be a problem in the handling of character decoration and style, such as superscript, subscript, italic, bold and underlined characters. In a sentence, for example, in the case of superscript, a case in which a normal character is enclosed in a tag of <sup> to </ sup> in the HTML indicates that it is a superscript and a character code such as Unicode Superscript may be expressed directly by. If these are mixed and used for machine learning, or if the handling of text decoration and style in the document at the time of translation differs from the handling at the time of learning, an incorrect translation result may be output.

上付き、下付き文字は、化学記号、化学式、数式、変数などの記載に用いられるが、ニューラル機械翻訳ではWord Embeddingの作用効果によって、一見似ているが全く異なる化学記号、化学式、数式、変数が翻訳結果として出力されることがある。化学記号、化学式、数式、変数は、一見して誤りを見つけにくいため、翻訳成果物内の誤訳として残るケースが多い。   Superscripts and subscripts are used to describe chemical symbols, chemical formulas, formulas, variables, etc. In neural machine translation, seemingly similar but completely different chemical symbols, chemical formulas, formulas, variables, depending on the effect of Word Embedding May be output as a translation result. Chemical symbols, chemical formulas, formulas, and variables are often found as mistranslations in translation products because it is difficult to find errors at first glance.

さらにニューラル機械翻訳では、原文中の同一の語が、異なる複数種類の語に翻訳される問題がある。例えば、元の文書に含まれる「address」という語が、同一の意味を示すにもかかわらず、出現箇所によって、「アドレス」と訳されたり、「住所」と訳されたり、「宛名」と訳されたりすることがある。また例えば、元の文書に含まれる「表示部」という語が、同一の物を示すにも関わらず、出現箇所によって、「display unit」と訳されたり、「display portion」と訳されたり、「display means」と訳されたりすることがある。このような表記のゆらぎや異なった意味をもつ単語の出力は、特に、厳密さを要求される法律文書、特許文書の翻訳において好ましいものではない。   Furthermore, in neural machine translation, there is a problem that the same word in the original text is translated into different plural kinds of words. For example, although the word "address" contained in the original document has the same meaning, it may be translated as "address", translated as "address" or translated as "address" depending on the place of appearance. May be Also, for example, although the word "display" contained in the original document indicates the same thing, it may be translated as "display unit", translated as "display portion", or " It may be translated as "display means". Such notational fluctuations and the output of words having different meanings are not particularly desirable in the translation of legal documents and patent documents that require strictness.

さらにニューラル機械翻訳では、学習のための膨大な対訳文を準備する必要がある。かつ、学習のための計算量が多いため、学習のための多大な時間とコンピュータ資源(GPU等)を必要とするという問題があった。   Furthermore, in neural machine translation, it is necessary to prepare a large number of bilingual sentences for learning. In addition, since the amount of calculation for learning is large, there is a problem in that a large amount of time and computer resources (GPU etc.) for learning are required.

ニューラル機械翻訳のコストを減らすために、自社専用ではない、学習済の外部のコンピュータ(事業者である他社や他人が運営するインターネット接続されたサイト、サーバ等)によってニューラル機械翻訳を行うことも考えられる。1の事業者が学習済のニューラル機械翻訳システムをインターネット上で提供し、複数の利用者(不特定多数のユーザ)がそのシステムをインターネット上で利用するものである。なお、不特定多数の利用とは、そのサイト(サーバ)が一般に公開され、各所からアクセス可能であることを意味している。   In order to reduce the cost of neural machine translation, it is also considered to perform neural machine translation using a computer that has not been dedicated to its own company but has already been learned (Internet-connected sites, servers, etc. operated by other companies and others). Be One business operator provides a learned neural machine translation system over the Internet, and a plurality of users (unspecified many users) use the system over the Internet. In addition, use of many unspecified means that the site (server) is open to the public and accessible from various places.

このようなシステムを用いる場合、システムの利用者は、インターネットを介して他社が運営する学習済みのニューラル機械翻訳コンピュータに文書データを送信し、そのサーバで行われた機械翻訳の結果をインターネットを介して受け取る。送信や受信は、システム提供者が提供するAPI(Application Programming Interface)を用いて行う事も可能であるし、HTTP、HTTPSなどの一般の通信プロトコルを用いて行う事も可能である。   When such a system is used, the user of the system sends document data to a learned neural machine translation computer operated by another company via the Internet, and the result of machine translation performed by the server is sent via the Internet. Receive. Transmission and reception can be performed using an API (Application Programming Interface) provided by a system provider, and can also be performed using a general communication protocol such as HTTP or HTTPS.

また、送信や受信は、ユーザインタフェースであるWEBブラウザを介して行うこともできる。この場合、利用者はWEBブラウザ上に表示されたフォームにコピーアンドペーストなどにより翻訳対象の文(テキスト)を貼り付け、それを外部のニューラル機械翻訳コンピュータに送信する。ニューラル機械翻訳コンピュータからのレスポンスである翻訳結果は、WEBブラウザ上に表示される。これらの通信におけるデータ交換フォーマットとしては、JSON(JavaScript Object Notation)形式などが用いられる。   Moreover, transmission and reception can also be performed via the web browser which is a user interface. In this case, the user pastes a sentence (text) to be translated by copy and paste into a form displayed on the WEB browser, and transmits it to an external neural machine translation computer. The translation result, which is the response from the neural machine translation computer, is displayed on the web browser. As a data exchange format in these communications, a JSON (JavaScript Object Notation) format or the like is used.

上述のような共同利用可能なニューラル機械翻訳システムでは、システム利用者にとっては、学習のための膨大な対訳文を準備することや、学習のための多大な時間、メンテナンスなどが不要となる。またシステム利用者は、システム構築のためのコンピュータ資源(サーバ、GPU等)を所有する必要がない。すなわち利用者は、ニューラル機械翻訳サービスを利用しながら、ニューラルネットワークの学習に要する時間、ハードウェアのコスト、メンテナンスのコストや手間をほぼゼロとすることができ、便利である。   In the above-described jointly available neural machine translation system, a system user does not need to prepare a large amount of bilingual sentences for learning, a great amount of time for learning, and maintenance. Also, the system user does not have to possess computer resources (server, GPU, etc.) for system construction. That is, it is convenient that the user can substantially reduce the time required for learning the neural network, the cost of hardware, the cost of maintenance and the labor while using the neural machine translation service.

一方で、秘密性の高い文書(例えば契約書などの法律文書、特に公開前の特許文書、社内の機密文書、研究開発の文書など)を翻訳する場合には、インターネットを介して外部にそれら秘密性の高い文書が送信されることは避けなければならない。   On the other hand, when translating highly confidential documents (for example, legal documents such as contracts, especially patent documents before publication, confidential documents in company, documents of research and development, etc.), those secrets to the outside through the Internet It should be avoided that high quality documents are sent.

仮にHTTPS通信などを用いることで通信経路を暗号化したとしても、通信の目的地では、送信された文書は当然に平文に変換される。よって、他社の提供するサービスを利用するのであれば結局のところ、秘密性の高い文書をインターネットで送信することは避けなければならない。通信経路の暗号化を行うことによるセキュリティ確保と、秘密にすべき情報を外部(他の企業など)に渡してしまうことによるセキュリティリスクとは、別次元の問題であり、別個独立に対処する必要がある。   Even if the communication path is encrypted by using HTTPS communication or the like, the transmitted document is naturally converted to plain text at the communication destination. Therefore, if you use services provided by other companies, you should avoid sending highly confidential documents over the Internet. Ensuring security by enciphering the communication path and security risk by passing information that should be kept secret to the outside (such as another company) are different dimensions and need to be dealt with separately There is.

この点に関し、守秘義務に関する契約を文書の送信先(インターネット上でニューラル機械翻訳サービスを提供する事業者)との間で締結することも考えられる。しかしながら、ネット社会において情報は漏洩しやすく、しかも漏洩が明らかになりにくいという問題があるため、守秘義務契約によって情報を秘匿化することは実現性に乏しく、危険である。また、そのような守秘義務契約の確実な履行が保証されるものではない。さらに、守秘義務契約の履行が継続的に行われていることを定期的に監督、管理することは困難である。   In this regard, it is also conceivable to enter into an agreement regarding confidentiality obligation with the destination of the document (a provider of neural machine translation service on the Internet). However, since there is a problem that information is easily leaked in the Internet society and it is difficult to reveal the leak, it is scarce to realize that concealing the information by the confidentiality agreement is unrealistic. Also, there is no guarantee that such non-disclosure agreements will be fulfilled. Furthermore, it is difficult to regularly supervise and manage the ongoing performance of confidentiality contracts.

今日、パソコン、スマートフォンが身近なツールとなり、インターネットやWEBブラウザは誰でも気軽に利用できる生活必需品となっている。一方で、インターネットのシステムや通信プロトコル、情報の伝達経路についての理解不足も手伝い、秘密性の高い文書をインターネット上の機械翻訳サービスに安易に送信する事例が後を絶たない。また、インターネット上の機械翻訳サービスを利用することによる情報漏洩のリスクは看過されることが多い。   Today, personal computers and smartphones have become familiar tools, and the Internet and web browsers have become everyday necessities that anyone can easily use. On the other hand, the lack of understanding of Internet systems, communication protocols, and information transmission paths has helped to continuously transmit highly confidential documents to machine translation services on the Internet. Also, the risk of information leakage from using machine translation services on the Internet is often overlooked.

WEBを介した翻訳サービス、辞書サービスでは、その利用者は、WEBブラウザなどから翻訳したい文や単語を入力する(これには、タイピング、音声入力、コピーアンドペーストなどの入力方法がある)。入力された文や単語は、翻訳サービス、辞書サービスの提供事業者の保有(または管理)するサーバに送信され、送信者の情報とともに蓄積される。   In the translation service and dictionary service via the web, the user inputs a sentence or a word to be translated from a web browser or the like (this includes input methods such as typing, voice input, copy and paste, etc.). The input sentence or word is sent to a server owned (or managed) by a translation service or dictionary service provider, and is stored together with the sender's information.

翻訳サービス、辞書サービスの提供事業者は、蓄積された情報の利用ポリシー(利用規約)を定めることができるが、それを定めない事業者も存在する。また、利用規約によっては、「ユーザがコンテンツをアップロード、提供、送信などすると、ユーザは、サービス提供事業者(およびサービス提供事業者と協働する第三者)に対して、そのコンテンツについて、使用、保存、複製、変更、派生物の作成、(公衆)送信、出版、公開表示、および配布を行うための全世界的なライセンスを付与する。」との条項が定められているものもある。   Providers of translation services and dictionary services can define usage policies (terms of use) of stored information, but there are also providers that do not. Also, depending on the terms of use, “When the user uploads, provides, or transmits content, the user uses the content for the service provider (and a third party who cooperates with the service provider). There are also provisions that "provide a global license for storage, reproduction, modification, creation of derivative, (public) transmission, publication, public display, and distribution."

翻訳会社の翻訳者、または翻訳会社から案件を受注した個人翻訳者が、秘密性の高い文章(またはその一部文章や単語)をパソコンやスマートフォンのウェブブラウザに安易に入力することで、秘密性の高い文章が外部(特に海外)に漏洩する事態が多く発生している。また、そのような漏洩は、翻訳者本人、翻訳者の管理職、翻訳会社、翻訳の発注元の誰も気づかないまま、何年にもわたって継続しているという問題もある。   Confidentiality by a translator of a translation company, or a personal translator who receives an order from a translation company, easily entering highly confidential sentences (or partial sentences or words thereof) into a web browser of a personal computer or smartphone There are many cases in which high texts leak to the outside (especially overseas). There is also the problem that such leaks have continued for many years without the knowledge of the translator, the manager of the translator, the translation company, and the source of the translation.

特に契約書や、研究開発の文書や、公開前の特許などに関する秘密性の高い文書を外部(特に国外)に漏洩させることは、一企業の利益保護の観点はもとより、国益保護の観点からも絶対に避ける必要がある。   In particular, leakage of highly confidential documents relating to contracts, R & D documents, patents before publication, etc. to the outside world (especially foreign countries) is not only from the viewpoint of profit protection of one company, but also from the viewpoint of national interest protection. It is absolutely necessary to avoid.

例えば、独立行政法人情報処理推進機構の2015年2月20日のプレス発表である『「注意喚起」クラウドサービスに入力した内容の意図しない情報漏えいに注意』の資料には、以下の事項が記載されている。(https://www.ipa.go.jp/about/press/20150220.htmlより引用。)   For example, the following information is described in the material of “Awareness of unintended information leakage of the content entered in“ Attention ”cloud service” which is a press announcement of February 20, 2015 of Information processing promotion mechanism of independent administrative corporation It is done. (Quoted from https://www.ipa.go.jp/about/press/20150220.html.)

『IPA(独立行政法人情報処理推進機構、理事長:藤江 一正)は、ネット上の翻訳サービスに入力した文章が、ネット上にそのまま公開されていたという問題が明らかになったことを受け、クラウドサービス利用における利用者の意識向上を目的に、利用における心構えについて改めて、注意喚起を発することとしました。 近年、様々なクラウドサービスが充実し、企業向けだけでなく、個人を対象としたサービスの利用も進んでいます。例えばインターネット上に写真や資料等のデータを保存することで、いつでも、どこでも利用できたり、翻訳なども手軽にできたりするサービスなどがあります。 しかし、クラウドサービスはその利便性から急速に普及した反面、利用者がサービスの内容やリスクを正しく認識せずに利用したことが原因で、意図しない情報漏えいの問題が再三指摘されてきました(*1)。   “IPA (Independent Administrative Institution, Information Processing Promotion Organization, Chairman: Kazumasa Fujie) has been aware of the fact that the text entered in the translation service on the Internet has been disclosed as it is on the Internet, For the purpose of raising the user's awareness of cloud service usage, we decided to issue a new alert on the user's attitude about usage. In recent years, various cloud services have been enhanced, and the use of services for individuals as well as for companies has progressed. For example, by storing data such as photos and documents on the Internet, there are services that can be used anytime, anywhere, and translation can be done easily. However, while cloud services have spread rapidly due to their convenience, they have repeatedly pointed out the problem of unintended information leaks because users used the services without properly recognizing the content and risks of the services ( * 1).

2013年にはGoogle社が提供するサービスの1つであるGoogleグループの利用者が、情報公開範囲の設定を正しく認識していなかったために、関係者以外でもやりとりが閲覧できてしまう状態にあったという問題が発生しています。 また、IPAの調査(*2)では “ブラウザへの入力情報や検索履歴等がブラウザ提供元の企業に収集される”ことについて、“まったく気にならない”“あまり気にならない”等と回答した人が全体の31.3%であったことからも、クラウドサービスに対する利用者の意識・知識向上が求められます。   In 2013, the users of the Google group, one of the services provided by Google, did not correctly recognize the setting of the information disclosure range, and it was possible for other parties as well to view the exchange. There is a problem that In addition, in the IPA survey (* 2), they answered that they “do not mind at all” or “do not mind very much” that “information input to the browser, search history, etc. are collected by the company that provided the browser”. Even from 31.3% of the total, users need to improve their awareness and knowledge of cloud services.

一方、サービス提供側も利用者への説明不足や利用者の認識不足による情報漏えいを防ぐため、サービスの内容やサービス側での情報の扱いについて、判りやすく説明することが求められます。』   On the other hand, service providers are also required to explain in an easy-to-understand manner the contents of services and the handling of information on the service side in order to prevent information leaks due to lack of explanation to users and lack of user awareness. "

また、独立行政法人情報処理推進機構の「2014年2月の呼びかけ」には、以下の事項が記載されている。(https://www.ipa.go.jp/security/txt/2014/02outline.htmlより引用。)   In addition, the following matters have been described in the February 2014 Call for Information Processing Promotion Agency of the Independent Administrative Agency. (Quoted from https://www.ipa.go.jp/security/txt/2014/02outline.html.)

『「知らない間に情報を外部に漏らしていませんか?」〜 クラウドサービスを利用する上での勘所 〜 (中略)   "" Does the information be leaked outside without knowing? "-The key to using the cloud service-(omitted)

クラウドサービスは便利に利用できる反面、何らかの情報をサービス事業者側に渡すことが避けられません。   While cloud services can be used conveniently, it is inevitable to pass some information to the service provider side.

下記表1の3つのクラウドサービスは、普段の業務上、何気なく利用しているサービスです。特に「オンライン翻訳サービス」は、パソコンに翻訳ソフトをインストールすることなく気軽に文章を翻訳できますが、翻訳する元の“文章そのものを事業者に渡している”ともいえます。   The three cloud services shown in Table 1 below are services that are used casually on a daily basis. In particular, "Online Translation Service" allows you to translate sentences without having to install translation software on your PC, but it can also be said that you are translating "the sentences themselves" to the business operator.

業務で機密情報を扱う場合は、このことを認識し注意して利用してください。   When dealing with confidential information in business, please be aware of this and use it with caution.

表1:情報漏えいなどにつながるリスクがある、クラウドサービスの使い方   Table 1: How to use cloud services that have the risk of leading to information leaks

オンライン翻訳サービス   Online translation service

概要 翻訳したい文書をウェブページにコピー&ペーストすると、サービス事業者側の翻訳プログラムが自動的に翻訳。   Overview When you copy and paste a document you want to translate into a web page, the translation program on the service provider side automatically translates.

利用時のリスク   Usage risk

コピー&ペーストした翻訳元文書の内容を外部に送信してしまうことになり、その内容が機密情報に該当する場合、知らない間に社内規定に反してしまうことになる。   The contents of the copied and pasted source document will be transmitted to the outside, and if the contents correspond to confidential information, it will go against internal regulations while unknown.

想定される被害例   Expected damage example

ある社員が、海外の会社と、契約に関する交渉を暗号化メールでやり取りしていた。 復号したメールが英語で書かれていたため、オンライン翻訳サービスを利用して日本語に翻訳した。その事により契約情報が漏えいしてしまった。 せっかく情報漏えい防止のために暗号化メールを使用していたのに、オンライン翻訳という別の経路で情報が漏えいしてしまった。』   An employee exchanged encrypted negotiations with a foreign company via encrypted email. Because the decrypted email was written in English, it was translated into Japanese using an online translation service. Contract information was leaked by that thing. Although I was using encrypted email to prevent information leakage, information was leaked through another route called online translation. "

以上のように注意喚起がされているものの、その利便性が高いことから、依然として外部の(クラウド等の)翻訳システムを使う者のセキュリティ意識は低いままである。   Although attention is drawn as described above, the security awareness of those who use an external (such as cloud) translation system remains low because of its high convenience.

本発明は、上記課題の少なくとも1つを解決するためになされたものである。   The present invention has been made to solve at least one of the above-mentioned problems.

上記目的を達成するため、この発明のある局面に従うと、不特定多数が利用するコンピュータであって、第1の言語で記述された文章をインターネットを通じて入力し、それを第2の言語で記述された文章に翻訳し、翻訳された文章をインターネットを通じて送信するコンピュータとの間で通信を行う翻訳装置において、前記第1の言語で記述された文章は、その一部に、名詞である単語とその直後に続く参照符号とからなるセットを含んでおり、前記翻訳装置は、前記名詞である単語とその直後に続く参照符号とからなるセット中の単語部分を、その単語に対応する文字列に置き換える第1の置換手段と、前記第1の置換手段で置き換えが行われた文章を、インターネットを通じて前記コンピュータに送信する送信手段と、前記コンピュータから、翻訳後の前記第2の言語で記述された文章をインターネットを通じて受信する受信手段とを備える。   To achieve the above object, according to an aspect of the present invention, there is provided a computer used by an unspecified number of persons, wherein a sentence described in a first language is inputted through the Internet and described in a second language. In a translation apparatus for translating into a sentence and communicating with a computer that transmits the translated sentence through the Internet, the sentence described in the first language includes, in part, a word that is a noun and the word The translation apparatus replaces the word portion in the set consisting of the word that is the noun and the reference code that immediately follows it with the character string that corresponds to the word. A first replacement means, a sending means for sending the text replaced by the first replacement means to the computer through the Internet, and the computer From comprises receiving means for receiving via the Internet a sentence written in the second language after translation.

好ましくは翻訳装置は、前記受信手段が受信した文章中における、前記第1の置換手段で置き換えられた文字列を、それに対応する前記第2の言語の単語に置き換える第2の置換手段をさらに備える。   Preferably, the translation apparatus further comprises second substitution means for replacing the character string replaced by the first substitution means in the text received by the reception means with the corresponding word of the second language. .

好ましくは、前記第1の置換手段による置き換え後の文字列は、前記名詞である単語に対応する前記第2の言語の単語、又は暗号文字列である。   Preferably, the character string after replacement by the first replacement means is a word of the second language corresponding to the word which is the noun, or an encrypted character string.

好ましくは、前記名詞である単語は、上付き若しくは下付き文字を含む。   Preferably, the noun word includes superscripts or subscripts.

好ましくは、前記第1の置換手段は、データベースに登録された、単語とその置き換え文字列とを対応付ける複数の組から、1つの組における単語、及びその置き換え文字列を読み出す読出手段と、前記読出手段によって読み出された1つの単語を、前記第1の言語で記述された文章中から検索し、それがあった場合にその単語をそれに対応付けられた置き換え文字列に置換する処理を、前記第1の言語で記述された文章内において繰り返し行う第1の処理手段とを備え、前記第1の処理手段で前記第1の言語で記述された文章内の全ての置換えを行った後に、前記読出手段で次の組における単語、及びその置き換え文字列を読み出し、前記第1の処理手段での処理を行う。   Preferably, the first replacement means is a read means for reading out the words in one set and the replacement character string from a plurality of sets which are registered in the database and which associate the words with the replacement character strings; Processing for searching one word read out by means from a sentence described in the first language, and replacing the word with a replacement character string associated with the word if it is found; And first processing means for repeatedly performing in a sentence described in a first language, and the first processing means performs all replacements in a sentence described in the first language, The reading means reads out the words in the next set and the replacement character string, and the processing in the first processing means is performed.

好ましくは、前記送信手段は、前記第1の言語で記述された文章を分割することにより得られた複数の単位部分のうち、1つの単位部分を前記コンピュータに送信し、前記受信手段は、前記1つの単位部分についての翻訳後の前記第2の言語で記述された文章を受信し、前記複数の単位部分のそれぞれに対して、前記送信手段での処理と、前記受信手段での処理とを行う。   Preferably, the transmitting unit transmits one unit portion among the plurality of unit portions obtained by dividing the sentence described in the first language to the computer, and the receiving unit is configured to Receiving a sentence described in the second language after translation for one unit part, processing the transmission unit and the processing in the reception unit for each of the plurality of unit parts Do.

好ましくは、前記単位部分は、前記第1の言語で記述された文章を、句点、読点、および改行コードの少なくとも1つの位置で分割した部分である。   Preferably, the unit portion is a portion obtained by dividing a sentence described in the first language at at least one position of a phrase, a reading point, and a line feed code.

好ましくは、前記単位部分は、前記第1の言語で記述された文章を、句点の位置で分割した部分であり、前記単位部分において、それに含まれる少なくとも一部の句又は節の後に改行コードが挿入されている。   Preferably, the unit portion is a portion obtained by dividing the sentence described in the first language at the position of a phrase, and in the unit portion, a line feed code follows at least a portion of phrases or clauses included in the unit portion. It is inserted.

好ましくは、前記受信手段は、前記単位部分についての翻訳後の前記第2の言語で記述された文章を順次受信し、受信された文書同士を、その間にスペースを挿入して結合する。   Preferably, the receiving means sequentially receives the sentences described in the second language after the translation for the unit part, and combines the received documents by inserting a space between them.

好ましくは翻訳装置は、前記受信手段による受信後の文章を、後処理する後処理手段をさらに備え、前記後処理手段は、文章中のスペースの削除、単語の統一、文章中の大文字/小文字の変換、スペルチェック、および複数形の単語を正しい表記にする処理の少なくとも1つを行う。   Preferably, the translation apparatus further comprises post-processing means for post-processing the sentence received by the receiving means, the post-processing means deleting spaces in the sentence, unifying words, upper / lower case in the text Perform at least one of conversion, spell check, and processing of correct notation of plural words.

好ましくは、前記第1の言語で記述された文章は、その一部に、段落番号を含んでおり、前記送信手段は、前記文章に含まれる段落番号を送信しない。   Preferably, the sentence described in the first language includes a paragraph number in a part thereof, and the transmission means does not transmit the paragraph number included in the sentence.

好ましくは翻訳装置は、前記文章に含まれる段落番号を、全角から半角に変換し、前記受信手段が受信した文章の対応する位置に挿入する。   Preferably, the translation device converts a paragraph number included in the sentence from full-width to half-width, and inserts it into the corresponding position of the text received by the receiving means.

好ましくは、前記第1の置換手段は、第1の言語で記述された文章中の特定の単語を、それに対応する文字列に置き換え、その文字列の前および後の少なくともいずれかに、特定の文字コードを挿入する。   Preferably, the first replacement means replaces a specific word in a sentence described in the first language with a corresponding character string, and at least one of a specific word before and / or after the character string. Insert character code

好ましくは、前記特定の文字コードは、空白文字、または括弧、クォーテーション記号その他の囲まれる部分を他と区別するための印を表すコードである。   Preferably, the specific character code is a code representing a space character or a mark for distinguishing parentheses, quotation marks, and other enclosed parts from others.

この発明の他の局面に従うと、不特定多数が利用する外部コンピュータであって、第1の言語で記述された文章をインターネットを通じて入力し、それを第2の言語で記述された文章に翻訳し、翻訳された文章をインターネットを通じて送信する外部コンピュータとの間で通信を行う翻訳装置の制御プログラムにおいて、前記翻訳装置は、コンピュータを含み、前記第1の言語で記述された文章は、その一部に、名詞である単語とその直後に続く参照符号とからなるセットを含んでおり、前記翻訳装置の制御プログラムは、前記名詞である単語とその直後に続く参照符号とからなるセット中の単語部分を、その単語に対応する文字列に置き換える第1の置換ステップと、前記第1の置換ステップで置き換えが行われた文章を、インターネットを通じて前記外部コンピュータに送信する送信ステップと、前記外部コンピュータから、翻訳後の前記第2の言語で記述された文章をインターネットを通じて受信する受信ステップとをコンピュータに実行させる。   According to another aspect of the present invention, there is provided an external computer used by an unspecified number of persons, wherein a sentence described in a first language is input through the Internet and translated into a sentence described in a second language A control program of a translation device for communicating with an external computer that transmits the translated text through the Internet, the translation device includes a computer, and the text described in the first language is a part of And the control program of the translation apparatus includes a word portion in a set consisting of the word which is the noun and the reference which immediately follows it. , The first replacement step of replacing the word with the character string corresponding to the word, and the text replaced in the first replacement step in the Internet A transmission step of transmitting to the external computer through the external computer, a sentence written in the second language after translation to execute a receiving step of receiving via the Internet to the computer.

この発明のさらに他の局面に従うと、不特定多数が利用する外部コンピュータであって、第1の言語で記述された文章をインターネットを通じて入力し、それを第2の言語で記述された文章に翻訳し、翻訳された文章をインターネットを通じて送信する外部コンピュータとの間で通信を行う翻訳装置を用いた翻訳方法において、前記翻訳装置は、コンピュータを含み、前記第1の言語で記述された文章は、その一部に、名詞である単語とその直後に続く参照符号とからなるセットを含んでおり、前記翻訳方法は、前記翻訳装置によって、前記名詞である単語とその直後に続く参照符号とからなるセット中の単語部分を、その単語に対応する文字列に置き換える第1の置換ステップと、前記翻訳装置によって、前記第1の置換ステップで置き換えが行われた文章を、インターネットを通じて前記外部コンピュータに送信する送信ステップと、前記翻訳装置によって、前記外部コンピュータから、翻訳後の前記第2の言語で記述された文章をインターネットを通じて受信する受信ステップとを含む。   According to still another aspect of the present invention, an external computer used by an unspecified number of people, wherein a sentence described in a first language is input through the Internet and translated into a sentence described in a second language And a translation apparatus using a translation apparatus that communicates with an external computer that transmits the translated text through the Internet, the translation apparatus includes a computer, and the text described in the first language is The part includes a set of words which are nouns and a reference code immediately following them, and the translation method comprises the words which are nouns and a reference code which follows immediately after the translating device. A first replacement step of replacing a word portion in a set with a character string corresponding to the word; and replacing in the first replacement step by the translation device Transmitting the transmitted sentence to the external computer through the Internet, and receiving the translated sentence written in the second language from the external computer through the Internet. including.

この発明によると、上記課題の少なくとも1つを解決することができる。   According to the present invention, at least one of the above problems can be solved.

本発明の第1の実施の形態における翻訳システムの構成を示すブロック図である。It is a block diagram which shows the structure of the translation system in the 1st Embodiment of this invention. 本発明の第1の実施の形態における翻訳システムの構成を示す機能ブロック図である。It is a functional block diagram showing composition of a translation system in a 1st embodiment of the present invention. データベース207に格納されるデータ構造の具体例を示す図である。It is a figure which shows the specific example of the data structure stored in the database 207. FIG. 本発明の第1の実施の形態における翻訳システムに含まれるコンピュータプログラムの日英翻訳処理を示すフローチャートである。It is a flowchart which shows the Japanese-English translation process of the computer program contained in the translation system in the 1st Embodiment of this invention. 図4に続くフローチャートである。It is a flowchart following FIG. 本発明の第1の実施の形態における翻訳システムに含まれるコンピュータプログラムの単語、暗号登録処理を示すフローチャートである。It is a flowchart which shows the word of the computer program contained in the translation system in the 1st Embodiment of this invention, an encryption registration process. 本発明の第2の実施の形態における翻訳システムに含まれるコンピュータプログラムの単語、暗号登録処理を示すフローチャートである。It is a flowchart which shows the word of the computer program contained in the translation system in the 2nd Embodiment of this invention, an encryption registration process. 本発明の第3の実施の形態における翻訳システムに含まれるコンピュータプログラムの日英翻訳処理を示すフローチャートである。It is a flowchart which shows the Japanese-English translation process of the computer program contained in the translation system in the 3rd Embodiment of this invention. 本発明の第4の実施の形態における翻訳システムに含まれるコンピュータプログラムの日英翻訳処理を示すフローチャートである。It is a flowchart which shows the Japanese-English translation process of the computer program contained in the translation system in the 4th Embodiment of this invention.

[第1の実施の形態]   First Embodiment

図1は、本発明の第1の実施の形態における翻訳システムの構成を示すブロック図である。   FIG. 1 is a block diagram showing the configuration of a translation system in the first embodiment of the present invention.

図を参照して、翻訳システムは、ユーザ(システム利用者)が操作を行うコンピュータ100と、LAN(Local Area Network)300と、インターネット400と、他社コンピュータ資源200と、自社コンピュータ資源500とから構成される。   Referring to the figure, the translation system includes computer 100 operated by a user (system user), LAN (Local Area Network) 300, Internet 400, other company computer resource 200, and own company computer resource 500. Be done.

ユーザが操作を行うコンピュータ100は、CPU101と、通信部103と、I/O105と、ROM107と、RAM109と、記憶装置111と、音声入力/出力部113と、ディスプレイ115と、グラフィックユニット117と、キーボード119と、マウス121とを含んで構成されている。   The computer 100 operated by the user includes a CPU 101, a communication unit 103, an I / O 105, a ROM 107, a RAM 109, a storage device 111, an audio input / output unit 113, a display 115, and a graphic unit 117. A keyboard 119 and a mouse 121 are included.

コンピュータ100は、LAN300に接続され、LAN300はインターネット400に接続される。LAN300には自社コンピュータ資源500が接続されており、インターネット400には他社コンピュータ資源200が接続されている。   The computer 100 is connected to the LAN 300, and the LAN 300 is connected to the Internet 400. The company's computer resource 500 is connected to the LAN 300, and another company's computer resource 200 is connected to the Internet 400.

ここでコンピュータ資源とは、サーバ、パーソナルコンピュータ、記憶装置(コンピュータ内のストレージ、NAS(Network Attached Storage)など)、および情報通信経路(ネットワーク、ロードバランサ、スイッチ、ルータなど)、並びに、それらを構成するCPU、メモリ、記憶装置(ハードディスク、光学的または磁気的記憶装置、SSDほか半導体デバイス)、ROM、マザーボード、キーボード、マウス、マイクなどの入力装置、ディスプレイ、およびスピーカなどの出力装置、並びに記憶装置から読み出され、一般にはメモリ上で動作するコンピュータプログラム、データなどのソフトウェアの全てまたは一部を示している。   Here, computer resources include servers, personal computers, storage devices (storage in a computer, NAS (Network Attached Storage), etc.), information communication paths (networks, load balancers, switches, routers, etc.), and these. CPU, memory, storage device (hard disk, optical or magnetic storage device, semiconductor device other than SSD), ROM, motherboard, keyboard, input device such as keyboard, mouse and microphone, output device such as display and speaker, and storage device Generally indicates all or part of software such as a computer program or data operating on a memory.

自社コンピュータ資源500とは、上記ユーザ(または上記ユーザが所属する組織)が所有しているコンピュータ資源である。組織は、ユーザ1名からなる組織であっても良いし、複数の人員から構成される組織であってもよい。   The in-house computer resource 500 is a computer resource owned by the user (or an organization to which the user belongs). The organization may be an organization consisting of one user or an organization consisting of a plurality of personnel.

自社コンピュータ資源500やコンピュータ100は、インターネット400に直接接続されておらず、インターネット400には、LAN300のルータ(図示せず)を介して接続される。また、ルータ、自社コンピュータ資源500、コンピュータ100にファイヤウォール機能を設けることにより、インターネット400側から自社コンピュータ資源500やコンピュータ100にアクセスすることが禁じられている。これにより、自社コンピュータ資源500やコンピュータ100がインターネット400を介して外部から操作されることはなく、また、自社コンピュータ資源500やコンピュータ100に記憶されたデータに外部からアクセスすることが禁止されている。   The in-house computer resource 500 and the computer 100 are not directly connected to the Internet 400, but are connected to the Internet 400 via a router (not shown) of the LAN 300. Further, by providing the router, the company's own computer resource 500 and the computer 100 with a firewall function, access to the company's computer resource 500 and the computer 100 from the Internet 400 side is prohibited. As a result, the in-house computer resource 500 and the computer 100 are not operated from the outside via the Internet 400, and external access to data stored in the in-house computer resource 500 and the computer 100 is prohibited. .

他社コンピュータ資源200とは、上記ユーザ(または上記ユーザが所属する組織)が所有するものではないコンピュータ資源である。上記ユーザは、コンピュータ100からアクセスすることで他社コンピュータ資源200の計算能力やストレージを一時的に借り受けることができる。その利用形態は、有償であると無償であるとを問わない。   The third-party computer resource 200 is a computer resource not owned by the user (or the organization to which the user belongs). By accessing from the computer 100, the user can temporarily borrow the computing capacity and storage of another company computer resource 200. The form of use may be free or chargeable.

秘密性の高い文章である翻訳の原文データは、HTMLやプレーンなテキストで記述され、自社コンピュータ資源500やコンピュータ100に記録される。翻訳の原文データが画像である場合には、自社コンピュータ資源500やコンピュータ100に記録されたOCR(Optical Character Recognition/Reader)のソフトウェアによりそれがHTML文書やテキスト文書に変換され、処理の対象とされる。   The original text data of the translation, which is a highly confidential sentence, is described in HTML or plain text, and is recorded in the in-house computer resource 500 or the computer 100. If the original text data of the translation is an image, it is converted into an HTML document or text document by the software of the optical character recognition / reader (OCR) recorded in the in-house computer resource 500 or the computer 100 and processed. Ru.

自社コンピュータ資源500およびコンピュータ100と、他社コンピュータ資源200との間の通信プロトコルは、HTTPS(Hypertext Transfer Protocol Secure)等により行われる。すなわち、SSL(Secure Sockets Layer)/TLS(Transport Layer Security)プロトコルによって提供されるセキュアな暗号化(秘密鍵、公開鍵を使ったデータ暗号化手法)の上でHTTP通信が行われるので、自社コンピュータ資源500およびコンピュータ100と他社コンピュータ資源200との間の通信内容を秘匿化することができ、その通信内容が第三者に漏洩することは防止される。通信内容の第三者への漏洩を防ぐことができるのであれば、HTTPS以外の暗号化通信を行っても良い。   A communication protocol between the in-house computer resource 500 and the computer 100 and the other-company computer resource 200 is performed by HTTPS (Hypertext Transfer Protocol Secure) or the like. That is, since HTTP communication is performed based on secure encryption (a secret key and a data encryption method using a public key) provided by a Secure Sockets Layer (SSL) / Transport Layer Security (TLS) protocol, the in-house computer The contents of communication between the resource 500 and the computer 100 and the computer resource 200 of another company can be concealed, and leakage of the contents of communication to a third party is prevented. If communication contents can be prevented from leaking to a third party, encrypted communication other than HTTPS may be performed.

HTTPSなどで暗号化された通信内容は、当然に他社コンピュータ資源200で復号化される。このため、たとえHTTPSなどの通信プロトコルを用いるとしても、上記ユーザ、または上記ユーザが所属する組織内で秘密にしておくべき文書の平文を他社コンピュータ資源200に送信することは望ましくない。また、他社コンピュータ資源200の運営業者が、利用規約として、送られてきたデータに関する公開、利用などの権利を留保するように取り決めている場合がある。このような場合、上記ユーザ、または上記ユーザが所属する組織内で秘密にしておくべき文書の平文を他社コンピュータ資源200に送信することは、技術的には可能であるが、ビジネス的には不可能である。   The communication content encrypted by HTTPS or the like is naturally decrypted by the computer resource 200 of another company. For this reason, even if a communication protocol such as HTTPS is used, it is not desirable to transmit the plaintext of the document to be kept secret in the user or the organization to which the user belongs to the other company computer resource 200. In addition, there may be a case where the operator of another company's computer resource 200 reserves the right of disclosure, use, etc., of transmitted data as a usage rule. In such a case, it is technically possible, but not business-friendly, to send the plaintext of the document to be kept secret in the above-mentioned user or in the organization to which the above-mentioned user belongs. It is possible.

他社コンピュータ資源200で平文に戻された通信内容が、現実的には当該他社でどのように保存、利用されるかユーザにとって詳細は解らない。また、一般にはユーザは他社コンピュータ資源200の構成、接続を知ることができず、当該他社内部の受信データの具体的な取り扱いを知ることができない。   The details of how the communication contents returned to plaintext by the other-company computer resource 200 are stored and used by the other company are practically unknown to the user. Also, in general, the user can not know the configuration and connection of another company's computer resource 200, and can not know the specific handling of received data in the other company.

現実に秘密情報の流出が頻繁に起こっており、それを防ぐことが困難であることを考えると、たとえ他社コンピュータ資源200の運営者との間で秘密保持契約を締結するとしても、やはり秘密にしておくべき文書の平文を他社コンピュータ資源200に送信することは望ましくないといえる。   Actually, in view of the frequent occurrence of the leakage of confidential information, and it is difficult to prevent it, even if a confidentiality agreement is concluded with the operator of another computer resource 200, it is also considered as confidential. It may not be desirable to send the plaintext of the document to be stored to another company's computer resource 200.

すなわち、HTTPSなどの暗号化通信を用いるとしても、秘密性の高い文章である翻訳対象の文章、またはその一部は、外部の他社コンピュータ資源200に送信すべきではない。   That is, even if encrypted communication such as HTTPS is used, the text to be translated, which is a highly confidential text, or part of the text to be translated should not be transmitted to the external computer resource 200 of another company.

そこで、本実施例におけるコンピュータ100は、秘密性の高い文章である翻訳対象の文章の一部を、解読困難な文字列に入替えることによって暗号化し(以下、これを「第1の暗号化」という。)、その後、その文章を外部の他社コンピュータ資源200に送信するときにHTTPS(SSL暗号化通信)などのプロトコルによってさらに暗号化(以下、これを「第2の暗号化」という。)する。   Therefore, the computer 100 in the present embodiment encrypts a part of the sentence to be translated, which is a highly confidential sentence, by replacing it with a character string that is difficult to decipher (hereinafter referred to as “first encryption”. Then, when the text is sent to another company's computer resource 200 outside, it is further encrypted (hereinafter referred to as “second encryption”) by a protocol such as HTTPS (SSL encrypted communication). .

他社コンピュータ資源200で、上記第2の暗号化によって暗号化された通信内容は、HTTPSなどのプロトコルによって平文に戻される(「第2の暗号化」に対応するものであるため、以下これを「第2の復号化」という。)。しかしながら、第1の暗号化については、復号化されることはなく、第1の暗号化によって暗号化されたままの文書が他社コンピュータ資源200内の翻訳プログラムによって翻訳される。その翻訳によって作成された翻訳文(テキスト文書、またはHTML文書)は、HTTPSなどのプロトコルにて暗号化(すなわち「第2の暗号化」の手法による暗号化)され、インターネット400を通じてコンピュータ100に送信される。コンピュータ100は、「第2の復号化」の手法であるHTTPSなどのプロトコルによって、受信した文章を平文に戻す。この状態では、まだ第1の暗号化については復号化されていない。   The communication content encrypted by the second encryption is returned to the plaintext by a protocol such as HTTPS in another company's computer resource 200 (it corresponds to “second encryption”, so Called “second decryption”). However, the first encryption is not decrypted, and the document as it is encrypted by the first encryption is translated by a translation program in another computer resource 200. The translated text (text document or HTML document) created by the translation is encrypted by a protocol such as HTTPS (that is, encrypted by the “second encryption” method) and transmitted to the computer 100 through the Internet 400. Be done. The computer 100 returns the received text to plain text by a protocol such as HTTPS, which is the “second decryption” method. In this state, the first encryption has not been decrypted yet.

コンピュータ100では、受信された翻訳後のデータに対して、「第1の暗号化」に対する復号処理である「第1の復号化」を行う。また、必要に応じてその後処理を行う。これにより、完全な翻訳後の文章をコンピュータ100のユーザは得ることができる。   The computer 100 performs “first decryption” which is decryption processing for “first encryption” on the received translated data. In addition, processing is performed as necessary. This allows the user of the computer 100 to obtain a complete translated text.

図1に示されている自社、他社以外に通信データが漏洩したとしても、それは第1の暗号化と第2の暗号化により2重の暗号化がされたものである。これにより、通信を行う当事者以外の第三者への情報の漏洩が防止される。   Even if communication data leaks to other than the company itself and other companies shown in FIG. 1, it is double-encrypted by the first encryption and the second encryption. This prevents leakage of information to a third party other than the communicating party.

また、図1に示されている他社は、第2の暗号化については復号化が行われた情報を得ることができるが、第1の暗号化については復号化することができない。このため、図1に示されている自社から、図1に示されている他社への情報の漏洩も防止される。すなわち図1に示されている他社(コンピュータ資源200の運営者側の人間)は、第1の暗号化がなされた文章しか手に入れることができない。また、翻訳後の文章も第1の暗号化がなされたままである。このため、図1に示されている他社は、暗号化されていない完全な翻訳前のデータ、および暗号化されていない完全な翻訳後のデータのいずれも得ることができない。   Also, while the other companies shown in FIG. 1 can obtain the decrypted information for the second encryption, they can not decrypt the first encryption. Therefore, leakage of information from the company shown in FIG. 1 to other companies shown in FIG. 1 is also prevented. That is, the other company (person on the operator side of the computer resource 200) shown in FIG. 1 can obtain only the first encrypted text. Also, the post-translational sentences are still subjected to the first encryption. For this reason, the other companies shown in FIG. 1 can not obtain either the full untranslated data before translation or the full untranslated data after translation.

第1の暗号化は、他社コンピュータ資源200にとって暗号化後の文章の機械翻訳ができる程度の暗号化であり、かつ、自社以外の者がその内容を理解できない程度の強度の暗号化である必要がある。   The first encryption needs to be an encryption that allows machine translation of a text after encryption for the other-company computer resource 200, and an encryption that is strong enough that no one other than the company can understand the contents. There is.

図2は、本発明の第1の実施の形態における翻訳システムの構成を示す機能ブロック図である。   FIG. 2 is a functional block diagram showing the configuration of the translation system in the first embodiment of the present invention.

図1の記憶装置111には、CPU101によって順に実行されることで、コンピュータ100を翻訳装置として動作させるコンピュータ読取り可能な実行形式のプログラムが複数記録されている。プログラムは、記憶装置111からから読み出され、RAM109上に展開される。プログラムがRAM109上でCPU101によって実行される。   A plurality of computer-readable executable programs that cause the computer 100 to operate as a translation device are recorded in the storage device 111 of FIG. 1 by being sequentially executed by the CPU 101. The program is read from the storage device 111 and expanded on the RAM 109. A program is executed by the CPU 101 on the RAM 109.

プログラムの実行により、図2に示されるように、コンピュータ100は、制御部201、通信部103、検索・置換部203、文書編集・単語登録部205、データベース207、メモリー209、記憶装置111、表示/出力部211、および入力部213としての機能を発揮する。   By execution of the program, as shown in FIG. 2, the computer 100 includes a control unit 201, a communication unit 103, a search / replacement unit 203, a document editing / word registration unit 205, a database 207, a memory 209, a storage device 111, and a display. The functions as the output unit 211 and the input unit 213 are exhibited.

制御部201は、翻訳装置全体の各種制御を行う機能ブロックである。通信部103は、社内・社外のコンピュータ資源と通信を行うための機能ブロックである。検索・置換部203は、翻訳の対象となる文書および機械翻訳後の文書の少なくとも一方について、特定の要素(単語、文節など)の検索を行ったり、検索された要素を対応する文字列や暗号に置換する機能ブロックである。文書編集・単語登録部205は、翻訳の対象となる文書および機械翻訳後の文書の少なくとも一方を編集したり、単語変換のための辞書を登録する機能ブロックである。   The control unit 201 is a functional block that performs various controls of the entire translation apparatus. The communication unit 103 is a functional block for communicating with internal and external computer resources. The search / replacement unit 203 searches for a specific element (word, clause, etc.) for at least one of the document to be translated and the document after machine translation, and the searched element is represented by a character string or encryption code It is a functional block to replace with. The document editing / word registration unit 205 is a functional block that edits at least one of a document to be translated and a document after machine translation and registers a dictionary for word conversion.

データベース207は、主に単語辞書を登録するデータベースである。データベース207としてはデータベースサーバのソフトウェアを採用しても良いし、CSVファイルなどの単なるテキストファイルや、表計算ソフト(EXCELなど)のテーブルを記録し、それを検索し、対応するデータを読み出すことでデータベースとしてもよい。   The database 207 is a database that mainly registers a word dictionary. Software of a database server may be adopted as the database 207, or a simple text file such as a CSV file or a table of spreadsheet software (such as EXCEL) may be recorded, searched, and read out corresponding data. It may be a database.

メモリ209は、データを一時的に記録するワーキングエリアである。記憶装置111は、不揮発性の記憶装置であり、翻訳前のデータ、翻訳後のデータ、データベースに記録されるデータ、メモリ209のデータなどを記憶する。表示/出力部211は、ディスプレイ、スピーカなどのユーザインタフェースである。入力部213は、マウス、キーボード、マイクなどのユーザインタフェースである。   The memory 209 is a working area for temporarily recording data. The storage device 111 is a non-volatile storage device, and stores data before translation, data after translation, data recorded in a database, data in the memory 209, and the like. The display / output unit 211 is a user interface such as a display and a speaker. The input unit 213 is a user interface such as a mouse, a keyboard, and a microphone.

図3は、データベース207に格納されるデータ構造の具体例を示す図である。   FIG. 3 is a view showing a specific example of the data structure stored in the database 207. As shown in FIG.

ここではデータベース207は列名(カラム名、フィールド名)として、番号(レコード番号であり、データの通し番号)、単語、暗号、対訳単語などを有するテーブルからなっている。   Here, the database 207 is a table having column numbers (column names, field names) as numbers (record numbers and serial numbers of data), words, ciphers, bilingual words, and the like.

単語としては、名詞が登録されるが、動詞、副詞、形容詞などを登録しても良い。また名詞には、複数の名詞からなる複合名詞(電気+自動車である「電気自動車」など)も含まれる。   As words, nouns are registered, but verbs, adverbs, adjectives, etc. may be registered. The nouns also include compound nouns composed of a plurality of nouns (e.g., "electric car" which is electric + car).

番号のカラムは、1レコードの通し番号を記録する。単語のカラムは、翻訳原文の単語を登録する。暗号のカラムは、その単語に対応する暗号を登録する。対訳単語のカラムは、その単語(および暗号)に対応する翻訳後の単語を登録する。   The column of numbers records the serial number of one record. The word column registers the translated original word. The encryption column registers the encryption corresponding to the word. The parallel word column registers the translated word corresponding to the word (and the code).

例えば図3では、日本語と英語の翻訳で用いる翻訳データが登録されている。すなわち、日本語の単語と、それに対応する英語の単語(対訳単語)と、それに対応する暗号が登録されている。図3のテーブルを用いることで、日本語の単語をそれに対応する暗号に変換したり、日本語の単語をそれに対応する英単語に変換したり、暗号をそれに対応する日本語の単語に変換したり、暗号をそれに対応する英単語に変換したり、英単語をそれに対応する暗号に変換したり、英単語をそれに対応する日本語の単語に変換することが可能である。   For example, in FIG. 3, translation data used for translation of Japanese and English are registered. That is, Japanese words, corresponding English words (translational words), and corresponding ciphers are registered. By using the table shown in FIG. 3, it is possible to convert Japanese words into their corresponding code, convert Japanese words into their corresponding English words, convert codes into their corresponding Japanese words, and Or, it is possible to convert a code into its corresponding English word, convert an English word into its corresponding code, and convert an English word into its corresponding Japanese word.

また、カラムを追加し、他の言語の対訳単語も図3のテーブルに登録することで、3以上の言語間における翻訳が可能である。例えば、対訳中国語単語のカラムを追加することで、日英、英日、日中、中日、英中、中英の翻訳(および各言語の単語と暗号との変換)が可能となる。   Further, by adding a column and registering parallel words in other languages in the table of FIG. 3, translation between three or more languages is possible. For example, by adding a column of bilingual Chinese words, Japanese-English, English-Japanese, Japanese-Japanese, Chinese-Japanese, Chinese-English, Chinese-English, and Chinese-English translations (and conversion between words in each language and encryption) are possible.

例として、番号「0」のレコードとして、「電気自動車」の原文の単語と、「AAA」の暗号文字列と、「electric vehicle」の対訳単語とをデータベースは対応付けて記録している。   As an example, as a record of the number “0”, the database records the original word “electric car”, the encrypted character string “AAA”, and the bilingual word “electric vehicle” in association with each other.

このようなデータベースは、事前にユーザが作成しても良いし、図6または7のフローチャートで示される処理を繰り返すことで、翻訳作業時または翻訳作業時以外に作成しても良い。また、業者がデータベースを作成し、ユーザに提供することもできる。   Such a database may be created in advance by the user, or may be created at the time of translation work or other than translation work by repeating the process shown in the flowchart of FIG. 6 or 7. Also, a vendor can create a database and provide it to the user.

このようなデータベースを用いることで、単語を暗号に変換することができるし、単語を対訳単語に変換することもできる。また、暗号を対訳単語に変換することなどもできる。さらに、対訳単語を元の単語に変換(逆翻訳)することも可能である。   By using such a database, it is possible to convert words into ciphers, and also to convert words into parallel words. In addition, it is also possible to convert the code into parallel words. Furthermore, it is also possible to convert the parallel translation word into the original word (reverse translation).

単語、対訳単語には、1つの基本の単語(「車」、「手段」、「部」、「vehicle」、「device」、「unit」など)が1レコードに登録されても良いし、複合語(「電気自動車」、「信号入力手段」、「表示部」、「electric vehicle」、「signal input unit」、「display unit」など)が1レコードに登録されても良い。   One basic word ("car", "means", "part", "vehicle", "device", "unit", etc.) may be registered in one record for the word and the bilingual word, or a compound word Words ("electric car", "signal input means", "display unit", "electric vehicle", "signal input unit", "display unit", etc.) may be registered in one record.

暗号は、ここではアルファベット3文字からなっており、機械翻訳時の仮想単語として機能する。ここでは暗号は、AAAから始まり、10進数で記載されたレコード番号(番号)を、A〜Zのアルファベットをそれぞれ0〜25の数値に当てた26進数として表したものである。   The encryption here consists of three alphabets and functions as a virtual word at the time of machine translation. In this case, the encryption starts from AAA and represents a record number (number) described in a decimal number as a 26-base number in which the alphabet of A to Z is assigned to a numerical value of 0 to 25 respectively.

すなわち暗号の下1桁は、26の0乗の位であり、暗号の下2桁目は、26の1乗の位であり、暗号の下3桁目(最上位)は、26の2乗の位である。   That is, the lower one digit of the code is 0 to the 26th power, the lower 2nd digit of the code is the 1st power of 26 and the lower 3rd digit (most significant) of the code is the power of 26 It is the place of.

例えば「番号」のカラムが0であれば、「AAA」(Aは26進数のゼロを示す)の暗号が当てられ、「番号」のカラムが1であれば、「AAB」(Aは26進数のゼロを示し、Bは26進数の1を示す)の暗号が当てられる。同様に例えば「番号」のカラムが3501であれば、「FER」(26進数の3501)の暗号が当てられる。   For example, if the column of "number" is 0, encryption of "AAA" (A indicates a 26-base zero) is applied, and if the column of "number" is 1, "AAB" (A is 26-base) , And B is a 26-digit 1) code. Similarly, for example, if the column of "number" is 3501, the encryption of "FER" (hexadecimal number 3501) is applied.

すなわち暗号の最上位(下3桁目)は、番号を26の2乗(すなわち676)で割った値の整数部分に対応するアルファベットが当てられる。暗号の中位(下2桁目)は、上記割り算の余りを26の1乗(すなわち26)で割った値の整数部分に対応するアルファベットが当てられる。暗号の最下位(下1桁目)は、その割り算の余りに対応するアルファベットが当てられる。これは、10進数から26進数への変換に等しい。   That is, the highest digit of the code (lower third digit) is assigned the alphabet corresponding to the integer part of the value divided by 26 (ie, 676). The middle order (lower second digit) of the code is assigned the alphabet corresponding to the integer part of the value obtained by dividing the remainder of the above division by the 26th power (ie 26). The lowermost (lower first digit) of the code is assigned the alphabet corresponding to the remainder of the division. This is equivalent to the conversion from decimal number to 26 number.

なお、暗号の桁数は3に限るものではない。また、3桁の暗号のうち言葉としての意味を有するもの(例えば、CPU、RAM、USB、NOXなど)は、誤解、誤訳が生じることを防ぐため、予約語としてそれに対応する番号と共に登録しないこととしても良い。   The number of digits of the encryption is not limited to three. Also, among the 3-digit codes, those with meaning as words (for example, CPU, RAM, USB, NOX, etc.) should not be registered as reserved words together with the corresponding numbers, in order to prevent misunderstanding and mistranslation. As well.

またここではレコード番号を26進数に変換したものを暗号としたが、暗号はランダムに決めても良いし、他の法則で決めても良い。   Furthermore, here, the one in which the record number is converted to the 26-adic number is used as the encryption, but the encryption may be determined at random or may be determined by another rule.

単語と対訳単語は、同じものが登録されても良い。例えば化学式や略語(HCl、CPUなど)は、単語と対訳単語とを同じものとして登録してもよい。この場合、日本語でも英語でも同じ単語が登録される。さらに、単語(日本語)が全角文字であり、対訳単語(英語)がその半角文字であってもよい。   The same word and the translation word may be registered. For example, in chemical formulas and abbreviations (HCl, CPU, etc.), words and parallel words may be registered as the same. In this case, the same word is registered in both Japanese and English. Furthermore, the word (Japanese) may be full-width characters, and the parallel word (English) may be the half-width characters.

また単語が「情報表示 unit 」であり、その対訳単語が「information display unit」であるなど、原文の単語の一部が翻訳後の言語で記述されているものを登録しても良い。   Also, it is possible to register a word in which the part of the original word is described in the translated language, such as the word "information display unit" and the parallel translation word "information display unit".

暗号は、通常の16進数表記(0〜9、A〜Fを用いる)に倣った26進数表記とし、0〜9、A〜Pを用いて表現しても良い。また、アルファベット小文字や記号(!”#$%&など)を用いても良い。暗号を、複数の暗号間で重複しないランダムな文字列としても良い。その文字列を構成する文字は、アルファベット、記号、またはアルファベットと記号の組み合わせからなることが望ましい。顔文字などピクトグラムを暗号としても良い。   The encryption may be expressed as a 26-ary notation following the usual hexadecimal notation (0 to 9 using A to F), and expressed using 0 to 9 and A to P. In addition, lower case letters and symbols (! "# $% & Etc.) may be used. A cipher may be a random character string that does not overlap among multiple ciphers. It is desirable to be a symbol or a combination of an alphabet and a symbol, or a pictogram such as an emoticon may be used as a code.

本実施の形態のように、暗号を、AAA、AAB、AAC、・・・、ZZY、ZZZとし、1桁をA〜Zまでの26進数とし、3桁(3文字)のアルファベットで表すのであれば、26*26*26=17576の単語をデータベースに登録することができる。不足であれば、暗号の桁数を増やすことにより、26のべき数分のレコード(単語と暗号と対訳単語の組)をデータベースに登録することができる。   As in the present embodiment, let the encryption be AAA, AAB, AAC,..., ZZY, ZZZ, one digit be a hexadecimal number from A to Z, and be represented by a three digit (three letter) alphabet. For example, 26 * 26 * 26 = 17576 words can be registered in the database. If insufficient, by increasing the number of digits of the code, it is possible to register 26 powers of records (a set of a word, a code and a bilingual word) in the database.

本実施の形態のように、A〜Zをそれぞれ0〜25とする26進数で暗号を表記することで、一見してそれが何を示す語であるかわからないという利点がある。また、ニューラル機械翻訳において、アルファベットや記号の文字列は1つの単語として認識されるため、暗号を1つの単語として原文に残したままで機械翻訳することができるという利点がある。   As in the present embodiment, representing a code in a 26-adic notation in which A to Z are each 0 to 25 has an advantage that it is not obvious at first glance what it is a word indicating. Further, in neural machine translation, since a character string of alphabets and symbols is recognized as one word, there is an advantage that machine translation can be performed while leaving the code as a single word in the original text.

すなわち、ニューラル機械翻訳を用いて翻訳するときに、アルファベットや記号の文字列には訳語が当てられずそのまま出力される(但し、例外もある)。   That is, when translating using neural machine translation, the character string of alphabets and symbols is output as it is without being translated (but there are exceptions).

例えば、「電気自動車100は、エンジン101を含む。」の翻訳原文を、図3のテーブルによって置き換えると、「 AAA 100は、 AAB 101を含む。」の暗号文が生成される。この文は、ニューラル機械翻訳により、「AAA 100 includes AAB 101.」の文に翻訳される。ニューラル機械翻訳が行われた後に、図3のテーブルを用いて、その中の暗号を元の単語の訳語に変換することで、「electric vehicle 100 includes engine 101.」の翻訳後の文章を得ることができる。   For example, when the translated text of “the electric vehicle 100 includes the engine 101” is replaced by the table of FIG. 3, the ciphertext of “the AAA 100 includes the AAB 101” is generated. This sentence is translated into a sentence of "AAA 100 includes AAB 101." by neural machine translation. After the neural machine translation is performed, a translated sentence of "electric vehicle 100 includes engine 101." is obtained by converting the code in it into the translation of the original word using the table of FIG. Can.

なお、例えば「複数のAAA」の原文が「a plural of AAAs」に翻訳されるなど、暗号が複数形に変換されることはありうる。この場合も、「AAAs」の「AAA」の暗号部分をその単語に対応する英単語(例えば「book」)に置き換えることで、語尾に「s」を付けた「books」の翻訳語を得ることができる。   In addition, for example, the original text of “a plurality of AAAs” may be translated into “a plural of AAAs”, etc., and the cipher may be converted into plural forms. Also in this case, by replacing the encrypted part of "AAA" of "AAAs" with the English word (for example, "book") corresponding to the word, a translated word of "books" with "s" added at the end is obtained. Can.

但し、この方法では「bus」、「leaf」、「city」などの単語(「s」を付けるだけでは正しい複数形にならない単語)がつづり違い(スペルミス)となってしまう。このため、翻訳後に従来技術であるスペルチェックのルーチンを実行して、これらの単語が正しいスペルとなるように対処する必要がある。またたとえば、「buss」を「buses」に、「leafs」を「leaves」に、「city」を「cities」に対応付けるテーブル(ミススペルと正しいスペルとを対応付けるテーブル)を用意しておき、機械翻訳後に一括変換することとしてもよい。   However, in this method, words such as “bus”, “leaf”, and “city” (words that do not form the correct plural form only by adding “s”) become misspelled (spelling error). For this reason, it is necessary to execute post-translational spell-checking routines to handle these words to be spelled correctly after translation. For example, prepare a table that associates “buss” with “buses”, “leafs” with “leaves”, and “city” with “cities” (a table that associates miss spelling with correct spelling), and after machine translation It is also possible to perform batch conversion.

また、ニューラルネットワークの学習結果によっては、入力される原文中の暗号と、それに対応する翻訳文中の暗号とが異なるものとなってしまう場合もある(誤訳の一種である)。   Also, depending on the learning result of the neural network, the code in the input original text and the code in the corresponding translated text may be different (a kind of mistranslation).

これを防ぐために、翻訳原文をニューラル機械翻訳する際に、暗号の部分を、それが特殊な文字列であることを示すキャラクターで囲む(暗号部分の前後に、特殊なキャラクタを挿入する)とよい。例えば、「 AAA 100は、 AAB 101を含む。」のように、暗号の部分の前後にスペース(空白)のキャラクターを挿入してニューラルネットワークに送信することで、暗号が他の暗号に変換されること(誤訳の一種)を防ぐことができる。   In order to prevent this, it is better to surround the part of the code with a character indicating that it is a special character string (by inserting a special character before and after the code part) when performing a neural machine translation of the original translation . For example, as shown in "AAA 100 includes AAB 101.", a character of space (blank) is inserted before and after the encryption part and transmitted to the neural network to convert the encryption into another encryption. Can prevent things (a kind of mistranslation).

スペースを示すキャラクター以外に、翻訳前の文書内の暗号部分を鉤括弧(「」)で囲んでおくことも有効である。同様に、クオーテーションキャラクタ(''、""、””、’’など)、丸括弧、二重丸括弧、二重鉤括弧、角括弧、二重角括弧、波括弧、亀甲括弧、二重亀甲括弧、山括弧、二重山括弧、ギュメ、または隅付き括弧などで囲むことも有効である。これによって、囲まれる部分が他の部分とは異なる特殊な意味を有する部分(暗号)であることを示す状態とした上で、ニューラル機械翻訳することができる。   In addition to the character indicating a space, it is also effective to enclose the encrypted portion in the document before translation in brackets (""). Similarly, quotation characters ('', "", "", '' etc.), parentheses, double parentheses, double brackets, square brackets, double brackets, braces, brackets, double brackets It is also effective to enclose it in turtle brackets, angle brackets, double angle brackets, narrow corners, or corner brackets. In this way, neural machine translation can be performed on the condition that the enclosed part indicates that it is a part (cipher) having a special meaning different from other parts.

これらの処理により挿入(追加)されたキャラクターは、機械翻訳後の後処理で削除される。例えば、暗号を鉤括弧でくくり、「AAA」100などとして機械翻訳した場合、それは"AAA" 100に翻訳される。ダブルクォーテーションは、元々の文章にはない、上記処理時に追加されたものであるため、機械翻訳後に削除されてAAA 100とされる。削除は、正規表現を用いることで可能である。   Characters inserted (added) by these processes are deleted in post-processing after machine translation. For example, if the code is bracketed and machine translated as "AAA" 100 etc., it is translated to "AAA" 100. The double quotation mark is not included in the original text and is added during the above processing, so it is deleted after machine translation to be AAA 100. Deletion is possible by using a regular expression.

暗号に漢字やひらがななど、アルファベットや記号以外の文字を用いると、それが英語に翻訳されてしまい、復号化できなくなるという問題がある(例えば暗号文字列として割り当てた「あさい」の文字列が「shallow」(「浅い」の英訳)に英訳されたり、「ああい」のような意味を持たない文字列が「Aai」に英訳されたりする)。よって、暗号はアルファベットや記号の文字列とすることが望ましい。   If characters other than alphabets and symbols such as kanji and hiragana are used for encryption, they are translated into English and there is a problem that they can not be decrypted (for example, the character string "assai" assigned as the encryption character string is " "Shallow" (English translation of "shallow"), or a string without meaning such as "oh" is translated into "Aai". Therefore, it is desirable that the encryption be a string of alphabets and symbols.

また、図3のテーブルを用いると、翻訳後の英語文章の1文の先頭文字が小文字となってしまう場合がある(英語であれば、文頭は大文字で始めるべきである)。これに対しても後のスペルチェックで、文頭を大文字にする処理を行うと良い。例えば、文頭(またはピリオド後の文字)のアルファベットを正規表現で検索し、全て大文字とする処理などである。   In addition, when the table of FIG. 3 is used, the first letter of one sentence of the translated English sentence may be lowercase (if it is English, the beginning of the sentence should start with the capital letter). Also for this, it is better to perform processing to capitalize the beginning of sentences in the later spell check. For example, a process of searching for an alphabet at the beginning of a sentence (or a letter after a period) with a regular expression and using all upper case letters.

図3のデータベースのデータは、業者から購入、入手することでそれを登録しても良いし、ユーザが登録してもよい。   The data in the database of FIG. 3 may be registered by purchasing from a vendor, or may be registered by the user.

図4は、本発明の第1の実施の形態における翻訳システムに含まれるコンピュータプログラムの日英翻訳処理を示すフローチャートである。図5は、図4に続くフローチャートである。   FIG. 4 is a flow chart showing Japanese-English translation processing of a computer program included in the translation system in the first embodiment of the present invention. FIG. 5 is a flowchart following to FIG.

このフローチャートで示される処理は、記憶装置111に記録されたコンピュータプログラムがRAM109上に読み出され、それをCPU101が順次実行することで実行される。プログラムは、コンパイルされた機械語の実行形式で保存されてもよいし、ソースコードをインタプリタが逐次実行する形式としてもよいし、中間言語で記載された形式としても良い。   The processing shown in this flowchart is executed by the computer program stored in the storage device 111 being read onto the RAM 109 and sequentially executed by the CPU 101. The program may be stored in a compiled form of machine language, or the source code may be sequentially executed by an interpreter, or may be written in an intermediate language.

ここではワープロソフト(マイクロソフト社のWORD、オープンソース方式で公開されているOpenOfficeなど)を用い、そのマクロ(VBA:Visual Basic For Applicationsなど)を用いて図4のフローチャートのプログラムが実行されるものとする。データベースは、専用のデータベースでもCSVファイルであってもよいが、ここではマイクロソフト社のEXCELなどの表計算ソフトを用いてデータベースが形成され、ワープロソフトのVBAを用いてデータベースへのアクセスが行われるものとする。なお使用されるワープロソフト、プログラム言語の種類は、発明の実施において制限されるものではない。   In this case, the program of the flowchart in FIG. 4 is executed using a word processing software (WORD of Microsoft, OpenOffice published by open source method, etc.) and its macro (VBA: Visual Basic For Applications etc.) Do. The database may be a dedicated database or a CSV file, but here, the database is formed using spreadsheet software such as Microsoft EXCEL, and the database is accessed using the word processing software VBA. I assume. The types of word processing software and program language used are not limited in the practice of the invention.

図4を参照して、ステップS101においてユーザはワープロソフトによって翻訳対象の文章が記録された文書ファイルを開く(文書ファイルを補助記憶装置からRAMへ展開する)。また、表計算ソフトも開いておく。   Referring to FIG. 4, in step S101, the user opens a document file in which a sentence to be translated is recorded by word processing software (the document file is expanded from the auxiliary storage device to the RAM). Also, open spreadsheet software.

文書ファイルは、プレーンテキスト形式で記載されたテキストファイルであってもよいし、ワープロソフトの文書ファイルであってもよいし、HTMLファイルであってもよい。また、画像に含まれる文字がOCRによりテキスト化されたファイルであってもよい。画像ファイルを入力し、ステップS101でOCR機能により文字部分をテキストデータに変換したファイルを作成しても良い。他、文章を記述することができるのであれば、ファイルのフォーマットは特定のものに限定されない。文書は、他のコンピュータからファイル転送プロトコルや電子メールソフトウェアを用いて受信しても良いし、USBメモリなどのストレージから入力されても良い。また、キーボード119やマイクによって入力されても良い。文書は、インターネットからダウンロードすることとしてもよい。   The document file may be a text file described in a plain text format, may be a document file of word processing software, or may be an HTML file. In addition, the characters included in the image may be files converted to text by OCR. An image file may be input, and in step S101, a file may be created in which the character portion is converted into text data by the OCR function. Besides, the format of the file is not limited to a specific one, as long as sentences can be described. The document may be received from another computer using a file transfer protocol or electronic mail software, or may be input from a storage such as a USB memory. Also, it may be input by the keyboard 119 or a microphone. Documents may be downloaded from the Internet.

ここでは仮に電気自動車について記載された特許明細書を翻訳するものとし、文書ファイルに、   Here, it is assumed that the patent specification described for the electric vehicle is translated, and the document file is

「[0023]   "[0023]

電気自動車100は、エンジン101と表示部102を備え、エンジン101は、信号入力手段103と表示部102に接続される。信号入力手段103の入力がハイである場合、表示部102は警告を表示する。」の文章が記載されていたものとする。この文章の翻訳を例として、本実施の形態における翻訳処理について説明する。なお、[0023]は、文書中の段落番号である。   The electric vehicle 100 includes an engine 101 and a display unit 102, and the engine 101 is connected to the signal input unit 103 and the display unit 102. When the input of the signal input unit 103 is high, the display unit 102 displays a warning. It is assumed that the sentence of "has been described. The translation process in this embodiment will be described by taking the translation of this sentence as an example. [0023] is a paragraph number in the document.

ステップS103で翻訳の対象となる文書に対し、前処理が行われる。これは、以下を目的とするものである。   At step S103, preprocessing is performed on the document to be translated. This aims at the following.

(1)1度に他社コンピュータ資源200に送信する文章の単位(文章の区切り)を明確にする。   (1) Define the unit of sentence (delimiter of sentence) to be sent to the other company computer resource 200 at one time.

(2)誤訳を少なくするために、他社コンピュータ資源200において一度に処理される1文の長さを短くする。   (2) In order to reduce mistranslations, the length of one sentence processed at one time in another computer resource 200 is shortened.

(3)1文中の意味が区切られる部分を明確にする。   (3) Make clear the part where the meaning in one sentence is separated.

例えば本実施の形態では、1度に他社コンピュータ資源200に送信する文章の単位は、文頭から句点(。)までとする。段落番号も文章の単位であるものとして、前処理で、段落番号部分を正規表現を用いてサーチし、その後ろに句点を付与する(上記例では、[0023]の後に句点が付与される)。   For example, in the present embodiment, the unit of the sentence transmitted to the other company computer resource 200 at one time is from the beginning of the sentence to the phrase point (.). In the pre-processing, the paragraph number part is searched using a regular expression as a paragraph number is also a unit of a sentence, and a phrase point is added after that (in the above example, the phrase point is added after [0023]) .

また、重文(2以上の等位の節(主語と述語の組合わせを含む語の集合)によって構成される文)は、短文に分解した方が誤訳が少なくなる。このため、前処理では、重文を2以上の文に分解する(上記例では、「電気自動車100は、エンジン101と表示部102を備え、エンジン101は、信号入力手段103と表示部102に接続される。」の文が、「電気自動車100は、エンジン101と表示部102を備える。エンジン101は、信号入力手段103と表示部102に接続される。」の2文に変換される)。   In addition, a heavy sentence (a sentence composed of two or more equal clauses (a set of words including a combination of a subject and a predicate)) is mistranslated less when it is broken into short sentences. Therefore, in the pre-processing, the heavy sentence is divided into two or more sentences (in the above example, “the electric vehicle 100 includes the engine 101 and the display unit 102, and the engine 101 is connected to the signal input unit 103 and the display unit 102 The sentence of “The electric vehicle 100 includes the engine 101 and the display unit 102. The engine 101 is converted to the two sentences of the signal input means 103 and the display unit 102”.

条件、時、原因、理由などを示す副詞節と主節とからなる複文は、副詞節と主節に関連があるため、2つの文に変換して処理するよりも、1つの文として処理した方が正確な翻訳が可能である。一方で、1文が長くなると誤訳が生じやすいという二律背反がある。本実施の形態では、副詞節と主節とを1つの処理単位とするが、その間に改行コードを挿入することで、両者が別の節であるものとして機械翻訳をすることとしている(複文を構成する節と節との間に改行コードを挿入した後に機械翻訳を行う)。これにより、翻訳をより正確にすることが可能となる。(上記例では、「信号入力手段103の入力がハイである場合、表示部102は警告を表示する。」の文章の「ハイである場合、」の後に改行コードが挿入される)。   Compound sentences consisting of adverbial clauses and main clauses that indicate conditions, times, causes, reasons, etc. are related to adverb clauses and main clauses, so they were treated as one sentence rather than being converted into two sentences and processed More accurate translation is possible. On the other hand, there is a trade-off that if one sentence is long, mistranslation is likely to occur. In this embodiment, the adverbial clause and the main clause are taken as one processing unit, but by inserting a line feed code between them, machine translation is performed assuming that both are separate clauses (a compound sentence Perform a machine translation after inserting a line feed code between the clauses to be composed). This makes it possible to make the translation more accurate. (In the above example, a line feed code is inserted after “if it is high,” after the sentence “When the input of the signal input means 103 is high, the display unit 102 displays a warning.”).

副詞節のみならず、副詞句、形容詞節、形容詞句に対しても同様の処理を行ってもよい。   The same process may be performed not only on adverbial clauses but also on adverbial phrases, adjective clauses and adjective phrases.

ステップS103での処理により、   By the process at step S103,

「[0023]   "[0023]

電気自動車100は、エンジン101と表示部102を備え、エンジン101は、信号入力手段103と表示部102に接続される。信号入力手段103の入力がハイである場合、表示部102は警告を表示する。」の文章は、   The electric vehicle 100 includes an engine 101 and a display unit 102, and the engine 101 is connected to the signal input unit 103 and the display unit 102. When the input of the signal input unit 103 is high, the display unit 102 displays a warning. The sentence of "is

「[0023]。   "[0023].

電気自動車100は、エンジン101と表示部102を備える。エンジン101は、信号入力手段103と表示部102に接続される。信号入力手段103の入力がハイである場合、   The electric vehicle 100 includes an engine 101 and a display unit 102. The engine 101 is connected to the signal input unit 103 and the display unit 102. When the input of the signal input means 103 is high,

表示部102は警告を表示する。」の文章に変換される。(「ハイである場合、」の後に改行コードが挿入されている)。 The display unit 102 displays a warning. It is converted to the sentence of ". (A line feed code is inserted after "if high").

ステップS105において、図3のデータベースを用いて、ステップS103の処理後の翻訳対象の文内の単語が、対訳単語に一決変換される。   In step S105, using the database of FIG. 3, the word in the sentence to be translated after the process of step S103 is subjected to decision conversion into a parallel translation word.

この処理は、図3のデータベースの番号0のレコードから順にレコードを読みとり、そのレコードに記載された単語を対象語として翻訳対象の文書の全文検索を行い、発見された単語を、図3の同じレコードに記載された対訳単語に置き換える処理である。なお、ここで単語をそのレコードに記載された暗号に置き換えることとしてもよいが、後のチェックでの人間にとっての可読性が低下するため、ここでは人間(翻訳者)に意味の分かる対訳単語に置き換えることが望ましい。   In this process, the records are read sequentially from the record of the database number 0 in FIG. 3, the full text search of the document to be translated is performed with the words described in the record as the target words, and the found words are the same as those in FIG. It is a process to replace with the bilingual word described in the record. Note that the word may be replaced with the code described in the record here, but since the human readability in the later check is reduced, the word is replaced with the parallel word whose meaning can be understood by the human (translator) here. Is desirable.

図3の例であれば、まずレコード番号0の「電気自動車」が翻訳対象文書中の検索単語とされ、「electric vehicle」がそれを置換する単語(置換後の単語)とされる。CPUの処理により、翻訳対象文書の先頭から「電気自動車」の語(対象語)が検索され、存在すると、それが「electric vehicle」に置き換えられる。なお、置き換え前にユーザに「○○を△△に置き換えますか?」のようなダイアログボックスを表示し、ユーザのYES/NOの入力に基づいてその単語の置換を行うかどうかを決定することとしてもよい。また、ユーザの同意を得ることなく、機械的に全文検索、一括置換(文書中の全ての対象語を置換すること)を行ってもよい。レコード番号0の処理が終了すると、次のレコードがあるかが判定され、最終レコードまで同様の処理が行われる。   In the example of FIG. 3, first, “electric car” of record number 0 is set as a search word in the document to be translated, and “electric vehicle” is set as a word to replace it (word after substitution). By the processing of the CPU, the word (target word) of “electric car” is retrieved from the top of the document to be translated, and if it is present, it is replaced with “electric vehicle”. Note that a dialog box such as “Do you want to replace 置 き 換 え with ??” is displayed to the user before replacement, and whether to replace the word is determined based on the user's YES / NO input. It may be In addition, full text search and batch replacement (replacement of all target words in a document) may be performed mechanically without obtaining the user's consent. When the process of record number 0 is completed, it is determined whether there is a next record, and the same process is performed until the final record.

なお、置換語の単語は、可読性を高める観点と、単語の区切りであることを機械翻訳時に明確にするために、その前後に半角または全角のスペース(空白記号)を挿入することが望ましい。また、確定した単語であることを明確にするために、置換語の単語を鉤括弧(「」)で囲んでもよい。クオーテーションキャラクタ(''、""、””、’’など)、丸括弧、二重丸括弧、二重鉤括弧、角括弧、二重角括弧、波括弧、亀甲括弧、二重亀甲括弧、山括弧、二重山括弧、ギュメ、または隅付き括弧、それ以外の記号などで囲んでもよい。このように、囲まれる部分が他の部分とは異なることを示す記号で囲んでも良い。   In addition, it is desirable to insert a half-width or full-width space (blank mark) before and after the word of the replacement word in order to make it easy to read out and to make it clear that it is a word break during machine translation. Also, in order to make it clear that the word is a fixed word, the word of the replacement word may be enclosed by square brackets (""). Quotation characters ("," "," ",", etc.), parentheses, double parentheses, double brackets, square brackets, double brackets, braces, turtle brackets, double brackets, It may be enclosed by angle brackets, double angle brackets, gimme, corner brackets, other symbols, etc. Thus, the enclosed portion may be surrounded by a symbol indicating that it is different from other portions.

なお、まだデータベース(図3)にデータが登録されていない状態(システム導入初期など)であれば、図4のステップS105の処理はパスされる(実行されず、翻訳対象の文章は変化しない)。   If the data is not yet registered in the database (FIG. 3) (the initial stage of system introduction, etc.), the process of step S105 in FIG. 4 is passed (not executed and the text to be translated does not change). .

仮にデータベースに図3のデータが登録されていたとすると、   Assuming that the data of FIG. 3 is registered in the database,

「[0023]。   "[0023].

電気自動車100は、エンジン101と表示部102を備える。エンジン101は、信号入力手段103と表示部102に接続される。信号入力手段103の入力がハイである場合、   The electric vehicle 100 includes an engine 101 and a display unit 102. The engine 101 is connected to the signal input unit 103 and the display unit 102. When the input of the signal input means 103 is high,

表示部102は警告を表示する。」の文章は、 The display unit 102 displays a warning. The sentence of "is

「[0023]。   "[0023].

electric vehicle 100は、 engine 101と display 102を備える。 engine 101は、 signal input unit 103と display 102に接続される。 signal input unit 103の入力がハイである場合、    The electric vehicle 100 includes an engine 101 and a display 102. The engine 101 is connected to the signal input unit 103 and the display 102. If the signal input unit 103 input is high,

display 102は警告を表示する。」の文に変換される。(ここでは、可読性を高めるために、置換された単語の前後に半角のスペース(空白記号)を挿入することとしている。)  The display 102 displays a warning. Is converted to the statement. (Here, in order to improve readability, a half-width space (space mark) is inserted before and after the replaced word.)

ステップS107において、ユーザは、ステップS105までの処理で作成された文書を目視により確認し、必要であれば、文章の編集、新規単語および暗号の新規登録、新規登録単語の文書内の一括変換を行う。   In step S107, the user visually confirms the document created in the processing up to step S105, and if necessary, edits the text, newly registers new words and ciphers, and performs batch conversion of newly registered words in the document. Do.

これは、以下を目的として行われる。   This is done for the following purpose.

(1)依然として長いままで残されている文章を、短い文章に変更する。   (1) Change the sentences that are still left long, to short sentences.

(2)ステップS105の一括変換で誤変換された単語を修正する。   (2) The word incorrectly converted in the batch conversion in step S105 is corrected.

(3)対訳単語に置換えるべき単語、また、暗号化すべき単語を一括変換し、データベースに登録する。   (3) The word to be replaced with the parallel word and the word to be encrypted are collectively converted and registered in the database.

すなわち、ユーザは目視によりステップS105までの処理で作成された文書を確認し、依然として長いままで残されている文章を、短い文章に変換する。例えば2以上の文章からなる重文を、句点で切ることで、同じ意味を有する2以上の文章とする。   That is, the user visually confirms the document created in the process up to step S105, and converts the sentences that are still left long into short sentences. For example, a double sentence consisting of two or more sentences is cut at a punctuation mark to make two or more sentences having the same meaning.

またユーザは、ステップS105の一括変換で誤変換された単語を修正する。技術分野などの違いによって、同一の単語であっても違う単語に翻訳すべきケースが存在する。そのような場合、ユーザは一括変換によりその単語を変換する。また、必要であればデータベースを正しい単語にアップデートしたり、技術分野などによって使い分ける複数のデータベースを準備したりする。   In addition, the user corrects the word erroneously converted in the batch conversion in step S105. Depending on the technical field, etc., there are cases where even the same word should be translated into different words. In such a case, the user converts the word by batch conversion. Also, if necessary, update the database to the correct word, or prepare multiple databases to be used depending on the technical field.

単語がデータベースに登録されていなかったことから、ステップS105で変換されなかった単語(とくに、参照符号前の単語)については、このステップS107においてユーザは新規単語、対訳単語および暗号の新規登録、ならびに、新規登録単語の文書内の一括変換を行う。   Since the word was not registered in the database, the user registered a new word, a parallel translation word and a new registration of the cipher in this step S107 for the word not converted in step S105 (in particular, the word before the reference code). Perform batch conversion within the document of newly registered words.

図6は、本発明の第1の実施の形態における翻訳システムに含まれるコンピュータプログラムの単語、暗号登録処理を示すフローチャートである。この処理は、例えば図4のステップS107でユーザの入力に応じて実行される。   FIG. 6 is a flow chart showing a process of registering words of a computer program included in the translation system in the first embodiment of the present invention. This process is executed, for example, in response to the user's input in step S107 of FIG.

図6を参照して、ステップS203においてユーザは文書内の文章の入力、編集処理を行っているものとする。新規単語のデータベースへの登録が必要であるとユーザが考えた場合、ユーザは、ステップS205で文書中のその単語を選択する。これは、ワープロソフトで文書が表示されているときに、登録すべき単語の先頭(または末尾)にカーソルを移動させ、シフトキーを押下しながら登録すべき単語の末尾(または先頭)まで方向キーを押下することで、登録すべき単語を反転表示させる(または色を変えたり、アンダーラインを付するなどで他の部分と区別できるようにする)ものである。単語の選択は、その単語をマウスでドラッグすることで行っても良い。   Referring to FIG. 6, it is assumed that the user is performing input processing and editing processing of the text in the document in step S203. If the user thinks that registration of the new word in the database is necessary, the user selects the word in the document at step S205. This moves the cursor to the beginning (or end) of the word to be registered when the document is displayed in word processing software, and while pressing the shift key, the direction key to the end (or beginning) of the word to be registered By pressing, the word to be registered is displayed in reverse (or it can be distinguished from other parts by changing the color, adding an underline, etc.). Selection of a word may be performed by dragging the word with a mouse.

単語登録のためのショートカットキーが押下される(あるいは、表示されたメニューから単語登録を示す表示が選択される)と、ステップS207においてダイアログボックスが表示される。ダイアログボックスは、選択された単語の対訳語を入力するフィールドを有している。ユーザはこのフィールドに選択された単語の対訳語を入力することで、選択された単語の対訳語を確定させる。また、図3とは異なるデータベースや、学習済みニューラルネットワークによって、選択された単語の対訳語の候補をダイアログボックスに表示し、ユーザから選択を受け付けることで、選択された単語の対訳語を確定させることとしてもよい。   When the shortcut key for word registration is pressed (or a display indicating word registration is selected from the displayed menu), a dialog box is displayed in step S207. The dialog box has a field for entering the parallel word of the selected word. The user inputs the selected word translation into this field to confirm the selected word translation. In addition, by displaying a candidate for bilingual word of the selected word in a dialog box by a database different from that in FIG. 3 or a learned neural network, the bilingual word of the selected word is determined by accepting the selection from the user. You may do it.

なお、ステップS205で選択される単語は、その一部が図4のステップS105で変換された単語であってもよい。例えば、データベースに「表示部」を「display unit」とする対訳が記録されていたとき、ステップS105の処理により、文書中の「情報表示部」は、「情報 display unit 」に変換される。ユーザは、「情報」を選択し、「information」の語を対訳語としてデータベースに登録しても良いが、「情報 display unit」を選択し、「information display unit」の語を対訳語としてデータベースに登録しても良い。   The word selected in step S205 may be a word of which a part is converted in step S105 of FIG. For example, when a parallel translation in which "display unit" is "display unit" is recorded in the database, "information display unit" in the document is converted to "information display unit" by the process of step S105. The user may select "information" and may register the word "information" in the database as a translation, but may select "information display unit" and enter the word "information display unit" in the database as a translation. You may register.

ステップS209において、ステップS205で選択された単語と同じ単語を全文検索し、ステップS211でそれをステップS207で確定された対訳語に置換する。この置換においても、図4のステップS105と同様に、置き換え前にユーザに「○○を△△に置き換えますか?」のようなダイアログボックスを表示し、ユーザのYES/NOの入力に基づいてその単語の置換を行うかどうかを決定することとしてもよい。また、ユーザの同意を得ることなく、機械的に全文検索、一括置換(文書中の全ての対象語を置換すること)を行ってもよい。   In step S209, the same word as the word selected in step S205 is full-text searched, and in step S211, it is replaced with the bilingual word determined in step S207. Also in this replacement, a dialog box such as “Do you want to replace ○ with △?” Is displayed to the user before the replacement as in step S105 of FIG. 4, and based on the user's YES / NO input. It may be determined whether to replace the word. In addition, full text search and batch replacement (replacement of all target words in a document) may be performed mechanically without obtaining the user's consent.

ステップS213において、データベース(図3)のデータ登録が行われている最下行を検索する。その1つ下の行を今回の単語の登録行とし、ステップS215でそのレコード番号から暗号を作成する。ステップS217でデータベース最下行の1つ下の行に、番号、単語、暗号、対訳単語などが新規に登録される。これにより、翻訳資産であるデータベースがアップデートされる。   In step S213, the lowermost row in which data registration of the database (FIG. 3) is performed is searched. The next lower line is used as the registration line of the current word, and in step S215, a code is created from the record number. In step S217, a number, a word, a code, a translation word, and the like are newly registered in a line immediately below the bottom line of the database. This updates the database, which is a translation asset.

ステップS217での処理の後、ステップS203からの処理に戻る。また、ステップS205で単語の登録が行われないときは、ステップS203からの処理を行う。   After the process in step S217, the process returns to the process from step S203. If the word is not registered in step S205, the process from step S203 is performed.

なお、ステップS205での単語の登録処理開始のイベントは、単語登録のためのショートカットキーが押下されることや、表示されたメニューから単語登録を示す表示が選択されることや、(「単語登録」などの)音声入力などであればよいが、(マウスや音声入力を用いずに単語登録ができるため、)ショートカットキーを用いることが望ましい。ショートカットキーは、文字入力の邪魔にならないよう、例えばコントロールキーと特定のキーの双方の押下などに割り当てられていることが望ましい。   As for the event of start of the word registration process in step S205, a shortcut key for word registration is pressed, or a display indicating word registration is selected from the displayed menu, It is preferable to use a shortcut key (because word registration can be performed without using a mouse or voice input), although it may be voice input etc.). It is desirable that the shortcut key be assigned, for example, to pressing of both the control key and the specific key so as not to disturb the character input.

図4のステップS107での処理が終了したのであれば、ステップS109において、ステップS107までの処理で生成された文書内に、機械翻訳しにくい部分があるかどうかのチェックが行われる。これは、具体的には、以下のものである。   If the process in step S107 in FIG. 4 is completed, it is checked in step S109 whether or not there is a portion that is difficult to machine-translate in the document generated in the process up to step S107. Specifically, this is as follows.

(1)1つの文章(文頭から句点まで)の長さが所定の長さ以上あれば、その文章を機械翻訳しにくい部分であるとして、警告を出力する。   (1) If the length of one sentence (from the beginning of a sentence to a phrase point) is equal to or longer than a predetermined length, a warning is output as a portion where the sentence is difficult to machine translate.

(2)1つの文章の文頭、または改行コードから、次の改行コード、または句点までの長さが所定の長さ以上あれば、その文章を機械翻訳しにくい部分であるとして、警告を出力する。   (2) If the length from the beginning of a sentence or a line feed code to the next line feed code or to a punctuation point is equal to or longer than a predetermined length, a warning is output as a portion that is difficult to machine translate the sentence .

(3)所定回数以上出現する単語であって、ステップS105またはS107の処理で変換されていない(データベースに登録されていない)単語があれば、変換するよう、警告を出力する。   (3) If there is a word that appears a predetermined number of times or more and is not converted (not registered in the database) in the process of step S105 or S107, a warning is output to convert.

(4)参照符号の前に出現する単語であって、ステップS105またはS107の処理で変換されていない(データベースに登録されていない)単語があれば、変換するよう、警告を出力する。   (4) If there is a word that appears before the reference code and is not converted (not registered in the database) in the process of step S105 or S107, a warning is output to convert.

(5)1文中の主語と述語の対応がとれていない場合、警告を出力する。   (5) A warning is output when the correspondence between the subject and the predicate in one sentence is not taken.

(6)1文中に、主語と述語が1つずつではない場合、警告を出力する。   (6) If one subject and one predicate are not included in one sentence, a warning is output.

ステップS109において、チェックに引っかかった場合、ユーザはステップS107での処理を続ける。なお、ステップS109での処理は省略してもよい。   In step S109, when the user is stuck in the check, the user continues the process in step S107. The process in step S109 may be omitted.

ステップS111において、ステップS109までの処理で得られた文書に対し、英語単語を暗号に一括変換する処理が行われる。   In step S111, a process of collectively converting English words into a code is performed on the document obtained in the process up to step S109.

この処理は、ステップS105での処理と類似する処理であり、図3のデータベースの番号0のレコードから順にレコードを読みとり、そのレコードに記載された対訳単語を対象語として翻訳対象の文書の全文検索を行い、発見された単語を、図3の同じレコードに記載された暗号に置き換える処理である。   This process is a process similar to the process at step S105, and records are read sequentially from the record of the database number 0 in FIG. 3 and the full text search of the document to be translated with the bilingual word described in the record as the target word And replace the found word with the code described in the same record of FIG.

これにより、   By this,

「[0023]。   "[0023].

electric vehicle 100は、 engine 101と display 102を備える。 engine 101は、 signal input unit 103と display 102に接続される。 signal input unit 103の入力がハイである場合、    The electric vehicle 100 includes an engine 101 and a display 102. The engine 101 is connected to the signal input unit 103 and the display 102. If the signal input unit 103 input is high,

display 102は警告を表示する。」の文章は、  The display 102 displays a warning. The sentence of "is

「[0023]。   "[0023].

AAA 100は、 AAB 101と FER 102を備える。 AAB 101は、 AAC 103と FER 102に接続される。 AAC 103の入力がハイである場合、    The AAA 100 comprises an AAB 101 and a FER 102. The AAB 101 is connected to the AAC 103 and the FER 102. If the AAC 103 input is high,

FER 102は警告を表示する。」に変換される。  The FER 102 displays a warning. Converted to

このように、単語がそのレコードに記載された暗号に置き換えられるため、人間に意味の分からない文書が生成される(第1の暗号化)。   In this way, since the word is replaced with the code described in the record, a document having no meaning to humans is generated (first encryption).

図3のデータベースの番号0のレコードから順にレコードを読みとる場合、ステップS111での処理では、対訳単語が長い順(または、より多くの単語を含む順)にデータをソートしておくことが望ましい。   When reading records sequentially from the record of the number 0 of the database in FIG. 3, in the processing in step S111, it is desirable to sort the data in the order of longer parallel words (or in the order including more words).

例えば、データベースに対訳単語として、「display unit」と「information display unit」とが登録される場合がある。文章中に「information display unit」の語があるときに、その中の「display unit」の部分のみが先に検索され、暗号化されると、「information」が暗号化されないままとなる。従って、対訳単語の長い順(より多くの単語を含む順)に検索を行う事により、長い単語を先に暗号化することができる。データベースのデータをソートしなくても、データベースから対訳単語の長い順(より多くの単語を含む順)に検索語をピックアップすることとしてもよい。   For example, "display unit" and "information display unit" may be registered as parallel words in the database. When the word "information display unit" is found in the sentence, only the "display unit" portion is searched first, and if encrypted, "information" remains unencrypted. Therefore, long words can be encrypted first by performing a search in the long order of bilingual words (in order including more words). The search terms may be picked up from the database in the long order of the parallel words (in the order including more words) without sorting the data of the database.

ステップS113において、参照符号前の単語(特に名詞)で暗号に変換できないものがあるかを検索してもよい。すなわち、参照符号前の単語で暗号に変換できていないものがあれば、ステップS115で、ステップS109と同様にユーザにデータベースへの登録を促すものである。ステップS113、S115の処理により、参照符号前の単語を確実に暗号化することができる。なお、ステップS113、S115の処理は、省略しても良い。   In step S113, it may be searched whether there is a word (especially noun) before the reference code that can not be converted into a code. That is, if there is a word before the reference code which can not be converted into the code, in step S115, the user is prompted to register in the database as in step S109. By the processes of steps S113 and S115, the word before the reference code can be securely encrypted. The processing in steps S113 and S115 may be omitted.

ステップS117において、ステップS115までの処理によってワープロソフトで作成された文書データを、テキストデータ(UTF−8などのデータ)に変換する。HTMLデータなどに変換しても良いが、通信されるデータ量や翻訳されるデータの量を削減するためには、テキストデータとすることが望ましい。   In step S117, the document data created by the word processing software by the processing up to step S115 is converted into text data (data such as UTF-8). It may be converted to HTML data or the like, but in order to reduce the amount of data to be communicated and the amount of data to be translated, it is desirable to use text data.

次に図5のステップS121において、ステップS117で得られたデータの先頭から順に、処理対象の1文(1度に機械翻訳する処理単位)を特定する。これは、データの先頭から次の句点までを第1番目の処理データとし、さらに次の句点までを第2番目の処理データとし、それを文末(第n番目の処理データの最後)まで続ける処理である。第n番目の処理データの最後(データ末尾)は、句点、またはデータの最後のキャラクタである。   Next, in step S121 of FIG. 5, one sentence (processing unit to be machine translated at a time) to be processed is specified sequentially from the top of the data obtained in step S117. In this process, the first processing data is from the beginning of the data to the next phrase, and the second processing data is from the next phrase until the end of the sentence (end of the n-th processing data) It is. The last (data end) of the nth processed data is a punctuation mark or the last character of the data.

「[0023]。   "[0023].

AAA 100は、 AAB 101と FER 102を備える。 AAB 101は、 AAC 103と FER 102に接続される。 AAC 103の入力がハイである場合、    The AAA 100 comprises an AAB 101 and a FER 102. The AAB 101 is connected to the AAC 103 and the FER 102. If the AAC 103 input is high,

FER 102は警告を表示する。」の文であれば、  The FER 102 displays a warning. If it is

第1番目の文は、「[0023]。」となる。   The first sentence is "[0023]."

第2番目の文は、「(改行コード) AAA 100は、 AAB 101と FER 102を備える。」となる。   The second sentence is "(Line feed code) AAA 100 includes AAB 101 and FER 102."

第3番目の文は、「 AAB 101は、 AAC 103と FER 102に接続される。」となる。   The third sentence is "AAB 101 is connected to AAC 103 and FER 102."

第4番目の文は、「 AAC 103の入力がハイである場合、(改行コード)   The fourth sentence, "If the input of AAC 103 is high, (line feed code)

FER 102は警告を表示する。」となる。これらが第1番目の文から順に処理対象とされ、ステップS121で処理される。なお、第2番目および第4番目の文は、処理対象の1文であるが、改行コードがその中に含まれている。  The FER 102 displays a warning. It becomes ". These are processed in order from the first sentence and processed in step S121. Although the second and fourth sentences are one sentence to be processed, a line feed code is included therein.

ステップS121においては、処理対象の1文が翻訳不要であるかを判定する。上記の例であれば、第1番目の文は段落番号「[0023]。」であり、記号と数字しか含まれていない。このように、記号、数字、アルファベットのみからなる1文であれば、翻訳する必要はないため、翻訳結果を代入する変数(キュー)にそのまま追加する。または、全角文字を半角文字に変換するなどの処理を行ってから追加することとしてもよい。すなわち、ステップS121でYESであれば、その1文がステップS123で必要に応じて処理され、キューの末尾に追加される。これにより、通信コストや翻訳コストを削減することができる。また、誤訳が生じることを防ぐことができる。   In step S121, it is determined whether one sentence to be processed does not require translation. In the above example, the first sentence is the paragraph number "[0023]" and contains only symbols and numbers. As described above, if it is one sentence consisting only of a symbol, a number and an alphabet, it is not necessary to translate, so it is added as it is to the variable (queue) to which the translation result is substituted. Alternatively, processing may be performed after conversion of full-width characters to half-width characters, or the like. That is, if YES in step S121, the one sentence is processed as needed in step S123 and added to the end of the queue. This can reduce communication costs and translation costs. Moreover, it can prevent that a mistranslation arises.

ステップS121でNOであれば、ステップS125でその1文をHTTPS通信により外部の他社コンピュータ資源200に送信する。HTTPS通信で行われる暗号化は、第2の暗号化である。   If "NO" in the step S121, the one sentence is transmitted to the external competitor's computer resource 200 by the HTTPS communication in a step S125. The encryption performed in HTTPS communication is the second encryption.

ステップS127において、その1文の翻訳結果を外部の他社コンピュータ資源200から受信する。この通信もHTTPSで暗号化が行われており、コンピュータ100で復号化(第2の復号化)が行われることで解読される。翻訳結果は、キューの末尾に付加される。   In step S127, the translation result of the one sentence is received from an external third-party computer resource 200. This communication is also encrypted by HTTPS, and is decrypted by decryption (second decryption) by the computer 100. The translation result is added to the end of the queue.

翻訳結果をキューの末尾に付加するときに、ピリオドの後であればスペース(またはツースペース(2個のスペース))を挿入することとしてもよい。すなわち、受信された文書同士を、その間にスペースを挿入して結合することとしてもよい。これは、翻訳後の文章の可読性を上げるための処理である。   When adding the translation result to the end of the queue, a space (or two spaces (two spaces)) may be inserted if it is after the period. That is, received documents may be combined by inserting a space between them. This is a process for improving the readability of the sentence after translation.

ステップS129で最後の文(第n番目の文)まで処理が終わったかが判定され、NOであればステップS121からの処理(次の番の文の処理)を繰り返す。これにより、第1番目の文から第n番目の文までの処理が完了する。   In step S129, it is determined whether the processing has been completed up to the last sentence (nth sentence). If NO, the process from step S121 (processing of the next sentence) is repeated. This completes the processing from the first sentence to the n-th sentence.

ステップS129でYESとなれば、キューには翻訳結果が含まれている。例えば上記の例であれば、   If “YES” in the step S129, the queue includes the translation result. For example, in the above example,

「[0023]。   "[0023].

AAA 100は、 AAB 101と FER 102を備える。 AAB 101は、 AAC 103と FER 102に接続される。 AAC 103の入力がハイである場合、    The AAA 100 comprises an AAB 101 and a FER 102. The AAB 101 is connected to the AAC 103 and the FER 102. If the AAC 103 input is high,

FER 102は警告を表示する。」の文は、  The FER 102 displays a warning. The statement is

「[0023]。   "[0023].

AAA 100 includes AAB 101 and FER 102. AAB 101 is connected to AAC 103 and FER 102. When an input of AAC 103 is high,    AAA 100 includes AAB 101 and FER 102. AAB 101 is connected to AAC 103 and FER 102. When an input of AAC 103 is high,

FER 102 displays warning.」のような文に変換され、それがキューに含まれることになる。このように、翻訳文も暗号化されているため、自社以外の者は翻訳文を得たとしても、その内容を知ることができない。  It is converted into a sentence like "FER 102 displays warning." And is included in the queue. Thus, since the translated text is also encrypted, even if someone other than the company obtains the translated text, it can not know the contents.

ここでステップS131において、キューの中の暗号を英単語に変換する処理が行われる。   Here, in step S131, processing is performed to convert the code in the queue into English words.

この処理は、ステップS105での処理と類似する処理であり、図3のデータベースの番号0のレコードから順にレコードを読みとり、そのレコードに記載された暗号を対象語として翻訳対象の文書の全文検索を行い、発見された暗号を、図3の同じレコードに記載された対訳単語に置き換える処理である。   This process is a process similar to the process at step S105, and reads the records sequentially from the record of number 0 of the database in FIG. 3 and performs full-text search of the document to be translated with the code described in the record as the target word. The process is a process of replacing the found cipher with the bilingual word described in the same record of FIG.

これにより、上記の   By this, the above

「[0023]。   "[0023].

AAA 100 includes AAB 101 and FER 102. AAB 101 is connected to AAC 103 and FER 102. When an input of AAC 103 is high,    AAA 100 includes AAB 101 and FER 102. AAB 101 is connected to AAC 103 and FER 102. When an input of AAC 103 is high,

FER 102 displays warning.」  FER 102 displays warning. "

の文は、   The statement is

「[0023]。   "[0023].

electric vehicle 100 includes engine 101 and display 102. engine 101 is connected to signal input unit 103 and display 102. When an input of signal input unit 103 is high,    electric vehicle 100 includes engine 101 and display 102. engine 101 is connected to signal input unit 103 and display 102. when an input of signal input unit 103 is high,

display 102 displays warning.」  display 102 displays warning. "

の文に変換される。この変換を自社内で行う事で、文書の秘匿性が担保される。   Is converted to By performing this conversion in-house, the secrecy of the document is secured.

なおこの変換においては、暗号を単語の一部分にマッチさせないよう、全文検索のフラグをセットすることが望ましい。例えば、ABSTRACTの単語中の「ABS」が暗号であるとして誤変換されることが防止するものである。このような処理は、例えばマイクロソフト社のVBAを用いるのであれば、MatchWholeWordプロパティをTrueにして全文検索を行うことで実現される。   In this conversion, it is desirable to set a flag for full text search so that the code does not match part of a word. For example, it is intended to prevent erroneous conversion as "ABS" in the word ABSTRACT is a code. Such processing is realized, for example, by performing a full text search with the MatchWholeWord property set to True when using Microsoft's VBA.

また、CPU、RAMなどの意味を持つ単語が暗号として翻訳されることを防ぐため、このような意味を持つ単語は、暗号としてデータベースに登録されないようにする(予約語とする)ことが望ましい。   In addition, in order to prevent a word having a meaning such as a CPU or a RAM from being translated as a code, it is desirable that a word having such a meaning not be registered in the database as a code (regarded as a reserved word).

ステップS133において、後処理を行う。これは具体的には以下の処理である。   In step S133, post processing is performed. Specifically, this is the following processing.

(1)不要なスペースを削除する処理。例えば、ピリオドの後ではない位置にスペースが2以上挿入されている場合、それを1つにする処理。また、アルファベットと数字からなる参照符号(100Aなど)の数字とアルファベットの間のスペースを削除する処理。   (1) Process of deleting unnecessary space. For example, if two or more spaces are inserted at positions not after the period, processing to make them one. Also, the process of deleting the space between the alphabet and the numerals of reference signs (such as 100A) consisting of alphabets and numerals.

(2)カンマの後に存在する改行コード、またはピリオドの後に存在する改行コード以外の改行コードを削除する処理。例えば上記例であれば、「When an input of signal input unit 103 is high,」の後の改行コードを削除する処理である。   (2) A process of deleting a line feed code present after a comma or a line feed code other than a line feed code present after a period. For example, in the above example, the line feed code after “When an input of signal input unit 103 is high,” is deleted.

(3)複数形の誤りを正しい形に変換する処理。例えば、boxsをboxesに変換する処理である。   (3) A process of converting plural form errors into a correct form. For example, it is processing to convert boxes into boxes.

(4)「前記」の訳語に当てられた「said」を一般的な語である「the」に直す処理。   (4) A process of converting "said" assigned to the translation of "the above" into "the" which is a general word.

(5)暗号を鉤括弧でくくるなど、特殊なコードを付加して翻訳した場合、それを削除する処理。例えば、AAA100の暗号に対し、「AAA」100など鉤括弧を付与して機械翻訳すると、"AAA" 100など元にはないダブルクォーテーションが付加されるため、これを削除する処理。   (5) If a special code is added and translated such as putting a code in square brackets, the process of deleting it. For example, if the AAA 100 code is given a bracket such as “AAA” 100 and machine translated, a non-original double quotation mark such as “AAA” 100 is added.

(6)冠詞を正しくする処理。初出の単語は、不定冠詞をつけることとし、2度目以降に出現する場合には、定冠詞を付するなど。   (6) Correcting the article. The word appearing first will have an indefinite article, and if it appears after a second time, it will have a definite article.

(7)全角の句点を削除する処理。(上記[0023]。の句点などを削除する処理である。)   (7) A process of deleting full-width punctuation marks. (This is a process of deleting the punctuation of the above [0023] and the like.)

ステップS135において、ユーザは後処理後の文書をチェックし、誤りがあればそれを修正する。   In step S135, the user checks the post-processed document and corrects any errors.

ステップS137において、ワープロソフトでのスペルチェッカーにより、単語、構文の誤りがあればそれを修正し、同時に複数形の誤りがあればそれを修正する。誤りをユーザが修正・編集することで、最終的な翻訳文が完成する。   In step S137, if there is a word or syntax error, the spelling checker in the word processing software corrects it, and if there is a plurality of errors at the same time, correct it. By correcting and editing the errors, the final translated text is completed.

このようにして、翻訳原文、および翻訳文双方の秘匿性を保ったまま、外部のコンピュータ資源を用いた機械翻訳を行う事ができる。   In this way, machine translation using an external computer resource can be performed while maintaining the secrecy of both the original and translated sentences.

また、上付き、下付き文字、イタリック、太字、アンダーラインが付された文字を含む単語をデータベースに登録することで、それは暗号に変換された状態で機械翻訳される。暗号を後に上付き、下付き文字、イタリック、太字、アンダーラインが付された文字を含む単語に再度変換することができるため、機械翻訳によって上付き、下付き文字、イタリック、太字、アンダーラインが付された文字を含む単語が誤訳されることが防止される。例えばデータベースに、単語は「SiO」、その対応する暗号は「ABC」、対訳単語は「SiO」として登録してもよいし、図3の3504番のレコードのように登録を行ってもよい。翻訳前の単語と翻訳語の単語が同じであれば、単語と暗号のみをデータベースに登録し、対訳単語は登録しないこととしてもよい。単語は全角、対訳単語は半角(あるいはその逆)としてデータベースに登録しても良い。 In addition, by registering words including superscripts, subscripts, italics, bold letters, and underlined letters in the database, they are machine-translated in the state of being converted into encryption. Since the ciphers can be converted back to words including superscripts, subscripts, italics, bold, and underlined letters, the machine translation allows superscripts, subscripts, italics, bolds, and underlines. It is prevented that a word including an attached letter is mistranslated. For example, in the database, the word may be registered as "SiO 2 ", the corresponding code as "ABC", and the parallel word may be registered as "SiO 2 ", or may be registered as the 3504 record in FIG. Good. If the word before translation and the word of the translation are the same, only the word and the code may be registered in the database, and the parallel word may not be registered. The words may be registered in the database as full-width, double-translational words as half-width or vice versa.

なお、秘密性の低い文書であれば、ステップS111〜S115の暗号化と、ステップS131での復号化を行わず、一部が対訳単語に変換されている文書を機械翻訳してもよい。この場合、第1の暗号化と第1の復号化は行われず、第2の暗号化と第2の復号化のみが行われることとなる。この方法は、図1の他社に対して翻訳の内容を秘密にする必要が無い場合に有効である。この方法では、機械翻訳後の文書の単語のゆらぎを防ぐことができる。この方法において、一括変換により変換された対訳単語に対して、それを囲む鉤括弧やダブルコーテーションなどを付加した後に機械翻訳を行ってもよい。これにより、翻訳しなくて良い単語であることを示した状態で機械翻訳を行う事ができるため、機械翻訳後の文書の単語のゆらぎ、誤訳がより少なくなる。   If the document is low in secrecy, the encryption in steps S111 to S115 and the decryption in step S131 may not be performed, and the document partially converted into parallel translation words may be machine-translated. In this case, the first encryption and the first decryption are not performed, and only the second encryption and the second decryption are performed. This method is effective when there is no need to keep the contents of the translation confidential from the other companies in FIG. In this way, it is possible to prevent the word fluctuation of the document after machine translation. In this method, machine translation may be performed after adding double brackets or the like surrounding the parallel translation word converted by batch conversion. As a result, since machine translation can be performed in a state that it is indicated that the word does not need to be translated, the fluctuation of words in the document after machine translation and mistranslations are further reduced.

「電気自動車」の訳語としては、「electric vehicle」、「electrical vehicle」、「electric-powered vehicle」、「electronic vehicle」、「battery car」、「battery vehicle」など複数の訳語が存在する。ニューラルネットワークによる機械翻訳を行うと、文脈によってどの訳語が当てられるかわからず、翻訳後の単語表現にゆらぎが生じる。また、翻訳対象の文書の分野の違いによって、適切な訳語が異なることも多い。本実施の形態においては、ニューラルネットワークによる機械翻訳の前に、予め単語が統一された訳語に変換される。このため、表現の揺らぎがなくなる。   As a translation of "electric vehicle", there are a plurality of translations such as "electric vehicle", "electrical vehicle", "electric-powered vehicle", "electronic vehicle", "battery car", and "battery vehicle". When machine translation is performed by a neural network, it does not know which translation is applied depending on the context, and fluctuations occur in the translated word expression. In addition, the appropriate translation often differs depending on the difference in the field of the document to be translated. In the present embodiment, before machine translation by a neural network, words are converted into translated words in advance. Therefore, the fluctuation of expression is eliminated.

なお、暗号を全角文字として日→英の機械翻訳をした場合、機械翻訳後にはそれらは半角文字となっている。このため、ステップS131の変換では、それを考慮して全文変換する必要がある。はじめから暗号を半角文字としておけば、このような問題は生じない。   In addition, when machine translation of Japanese → English is made by using full-size characters for encryption, they become half-size characters after machine translation. For this reason, in the conversion of step S131, it is necessary to take full-text conversion into consideration. This problem does not occur if the encryption is half-width characters from the beginning.

[第2の実施の形態]   Second Embodiment

図7は、本発明の第2の実施の形態における翻訳システムに含まれるコンピュータプログラムの単語、暗号登録処理を示すフローチャートである。   FIG. 7 is a flow chart showing a process of registering words of a computer program included in the translation system according to the second embodiment of the present invention.

図6で示された処理は、図1の翻訳システム内での処理に限らず、単語登録処理(データベース作成処理)として、別個独立に行う事ができる。   The process shown in FIG. 6 is not limited to the process in the translation system of FIG. 1, and can be performed independently as a word registration process (database creation process).

すなわち、図7のステップS201でワープロソフトで文章を開いた後に、ステップS203以降の処理(図6のステップS203以降の処理と同じ)を行う事も可能である。   That is, after the text is opened with the word processor software in step S201 of FIG. 7, the processing of step S203 and subsequent steps (the same as the processing of step S203 and subsequent steps of FIG. 6) can be performed.

なお、第1、第2の実施の形態において、暗号を用いずに翻訳を行うのであれば(秘密にする必要が無い文書を翻訳する場合)、データベースに暗号を登録する必要はない。この場合、ステップS215の処理は不要となる。   In the first and second embodiments, if translation is performed without using encryption (when a document that does not need to be confidential is translated), there is no need to register the encryption in the database. In this case, the process of step S215 is unnecessary.

また、暗号はデータベースに登録することとしたが、例えばレコード番号から一意に決定される暗号を用いることとし、暗号はデータベースに記録せず、コンピュータ100でレコード番号から演算により求めることとしてもよい。   Although the encryption is registered in the database, for example, an encryption uniquely determined from the record number may be used, and the encryption may not be recorded in the database but may be calculated from the record number by the computer 100.

このようなフローチャートで示される処理は、記憶装置111に記録されたコンピュータプログラムがRAM109上に読み出され、それをCPU101が順次実行することで実行される。プログラムは、コンパイルされた機械語の実行形式で保存されてもよいし、ソースコードをインタプリタが逐次実行する形式としてもよいし、中間言語で記載された形式としても良い。   The processing shown by such a flowchart is executed by the computer program stored in the storage device 111 being read onto the RAM 109 and sequentially executed by the CPU 101. The program may be stored in a compiled form of machine language, or the source code may be sequentially executed by an interpreter, or may be written in an intermediate language.

ワープロソフト(マイクロソフト社のWORD、オープンソース方式で公開されているOpenOfficeなど)を用い、そのマクロ(VBA:Visual Basic For Applicationsなど)を用いて図6、図7のフローチャートのプログラムが実行されてもよい。データベースは、専用のデータベースでもCSVファイルであってもよいが、ここではマイクロソフト社のEXCELなどの表計算ソフトを用いてデータベースが形成され、ワープロソフトのVBAを用いてデータベースへのアクセスが行われるものとする。   Even if the program in the flowcharts of FIG. 6 and FIG. 7 is executed using a word processing software (WORD of Microsoft Corporation, OpenOffice published by open source method, etc.) and its macro (VBA: Visual Basic For Applications etc.) Good. The database may be a dedicated database or a CSV file, but here, the database is formed using spreadsheet software such as Microsoft EXCEL, and the database is accessed using the word processing software VBA. I assume.

図7を参照して、ステップS201においてユーザはワープロソフトによって翻訳対象の文章が記録された文書ファイルを開く(文書ファイルを補助記憶装置からRAMへ展開する)。また、表計算ソフトも開いておく。   Referring to FIG. 7, in step S201, the user opens the document file in which the sentence to be translated is recorded by the word processing software (the document file is expanded from the auxiliary storage device to the RAM). Also, open spreadsheet software.

文書ファイルは、プレーンテキスト形式で記載されたテキストファイルであってもよいし、ワープロソフトの文書ファイルであってもよいし、HTMLファイルであってもよい。また、画像に含まれる文字がOCRによりテキスト化されたファイルであってもよい。画像ファイルを入力し、ステップS201でOCR機能により文字部分をテキストデータに変換したファイルを作成しても良い。他、文章を記述することができるのであれば、ファイルのフォーマットは特定のものに限定されない。文書は、外部コンピュータからファイル転送プロトコルや電子メールソフトウェアを用いて受信しても良いし、USBメモリなどのストレージから入力されても良い。また、キーボード119やマイクによって入力されても良い。文書は、インターネットからダウンロードすることとしてもよい。   The document file may be a text file described in a plain text format, may be a document file of word processing software, or may be an HTML file. In addition, the characters included in the image may be files converted to text by OCR. An image file may be input, and in step S201, a file may be created by converting character parts into text data by the OCR function. Besides, the format of the file is not limited to a specific one, as long as sentences can be described. Documents may be received from an external computer using a file transfer protocol or electronic mail software, or may be input from a storage such as a USB memory. Also, it may be input by the keyboard 119 or a microphone. Documents may be downloaded from the Internet.

ここでは仮に電気自動車について記載された特許明細書を翻訳するものとし、文書ファイルに、   Here, it is assumed that the patent specification described for the electric vehicle is translated, and the document file is

「電気自動車100は、エンジン101と表示部102を備え、エンジン101は、信号入力手段103と表示部102に接続される。信号入力手段103の入力がハイである場合、表示部102は警告を表示する。」の文章が記載されていたものとする。   “The electric vehicle 100 includes the engine 101 and the display unit 102, and the engine 101 is connected to the signal input unit 103 and the display unit 102. When the input of the signal input unit 103 is high, the display unit 102 displays a warning. It is assumed that the text of "display" is described.

図4のステップS203において、ユーザは開かれた文書の内容をチェックし、必要に応じてそれを訂正する。また必要に応じて文章を追加(入力)する。   In step S203 of FIG. 4, the user checks the content of the opened document and corrects it as necessary. Also add (input) sentences as necessary.

図4のステップS205において、ユーザは文章を目視することにより、データベースに登録したい単語を選択する。これはカーソルを単語の最初または最後に移動させ、SHIFT+方向キーの押下、またはマウスによるドラッグ操作によって、対象の単語を反転表示(または文字および/または背景色を他の部分と変えて表示)させるものである。単語の登録は、主に参照符号の前に存在する単語に対して行われるが、参照符号を伴わない単語も登録するようにしてもよい。参照符号とは、図面に記載された符号(引き出し線とともに用いられる、構成要素を示す数字や文字など)を参照するための符号である。例えば「電気自動車100」の「100」が参照符号であり、参照符号の前に存在する単語とは、「電気自動車」を意味する。   In step S205 of FIG. 4, the user visually selects sentences to select words to be registered in the database. This moves the cursor to the beginning or end of a word and causes the target word to be highlighted (or displayed with the text and / or background color changed from other parts) by pressing the SHIFT + arrow keys or dragging with the mouse. It is a thing. The word registration is mainly performed on words existing before the reference code, but words without the reference code may also be registered. The reference code is a code for referring to a code (a numeral, a letter, or the like indicating a component used with a lead wire) described in the drawings. For example, "100" of "electric vehicle 100" is a reference code, and the word existing before the reference code means "electric vehicle".

単語の選択は、上記のように人間の判断(キーやマウスの入力)によっても良いが、例えば参照符号の前に存在する単語を自動的に検出し、それを選択することとしてもよい。また、参照符号の有無に限らず、単語を自動的に検出し、それを選択することとしてもよい。   Selection of a word may be made by human judgment (input of a key or a mouse) as described above, but for example, a word existing before a reference symbol may be automatically detected and selected. Also, not only the presence or absence of the reference code, but a word may be automatically detected and selected.

単語が選択された状態で、画面に表示された登録ボタン(または登録のためのショートカットキー)が押下されたのであれば、ステップS207において、CPU101は、ステップS205で選択された単語の対訳語の入力を受け付ける。これはダイアログボックスを画面に表示し、ユーザからキーボードや音声による入力を受け付けるものでもよいし、辞書から単語候補を複数表示し、その中から対訳語をユーザに選択させるUI(ユーザインタフェース)を使用しても良い。これにより翻訳前の単語と、翻訳後の単語との対応が決定される。   If the registration button (or the shortcut key for registration) displayed on the screen is pressed in the state where the word is selected, then in step S207, the CPU 101 selects the parallel word of the word selected in step S205. Accept input. This may be a dialog box displayed on the screen, a keyboard or voice input from the user may be accepted, or a plurality of word candidates may be displayed from the dictionary, and a UI (user interface) that allows the user to select parallel words from among them. You may. This determines the correspondence between the pre-translational word and the post-translational word.

ステップS209において、CPU101は翻訳対象の文書の全文検索を行い、ステップS207までの処理で決定された翻訳前の単語を検索し、ステップS211においてそれを対応する翻訳後の単語に変換する。全文検索はユーザに確認を取ることなく行っても良いし、1つの単語が検索される度に、「(翻訳後の単語)に置換しますか?(YES/NO)」のようなダイアログボックスを画面に表示し、単語を置換するか否かをユーザに選択させるようにしても良い。これにより、ステップS205で選択された単語を含む、全文中のその単語が、ステップS207で決定された翻訳後の単語に一括変換される。例えば「電気自動車」の語に「electric vehicle」が対応付けられたのであれば、文書中の「電気自動車」の語は、「electric vehicle」に一括変換される。   In step S209, the CPU 101 performs full-text search of the document to be translated, searches for a word before translation determined in the process up to step S207, and converts it into a corresponding translated word in step S211. A full-text search may be performed without confirmation from the user, or a dialog box such as "Do you want to replace with (translational word)? (YES / NO)" every time a word is searched May be displayed on the screen to allow the user to select whether or not to replace a word. Thereby, the word in the full text including the word selected in step S205 is collectively converted to the translated word determined in step S207. For example, if the word "electric vehicle" is associated with "electric vehicle", the word "electric vehicle" in the document is collectively converted to "electric vehicle".

ステップS213において、CPU101は、データベース207の情報の登録されている最下行(図3の最下行)を検索し、その次の行である空白行の番号(通し番号)を取得する。   In step S213, the CPU 101 searches the lowermost line (lowermost line in FIG. 3) in which the information of the database 207 is registered, and acquires the number (serial number) of the blank line which is the next line.

ステップS215において取得された番号の26進数への変換が行われ、対象となる単語の暗号が作成される。ステップS217において、暗号は、データベースの情報の登録されている最下行の下の行に、翻訳前の単語、翻訳後の単語とともに1レコードとして記録される。データベースへ登録された情報は、将来用いる翻訳辞書としての資産となる。   The number obtained in step S215 is converted into a 26-base number to create a code of the target word. In step S217, the code is recorded as one record together with the pre-translational word and the post-translational word in the lower line in which the information of the database is registered. The information registered in the database is an asset as a translation dictionary to be used in the future.

ステップS217の処理の後、ステップS203からの処理が繰り返し行われる。また、ステップS205で登録ボタンが押されていないときは、ステップS203からの処理が繰り返し行われる。   After the process of step S217, the process from step S203 is repeatedly performed. When the registration button is not pressed in step S205, the processing from step S203 is repeated.

全文の処理が終了すると、利用者は文書を保存する。これは文書中の一部が翻訳された原文データであり、その後のニューラル機械翻訳の対象とされてもよい。   When the processing of the whole text is completed, the user saves the document. This is original text data partially translated in the document, and may be subjected to subsequent neural machine translation.

図6や図7の処理でデータベースに登録される単語は、主に、参照符号の前に記載される単語である。例えば翻訳対象の原文が、「電気自動車100は、エンジン101と表示部102を備え、エンジン101は、信号入力手段103と表示部102に接続される。信号入力手段103の入力がハイである場合、表示部102は警告を表示する。」の文であれば、そのうちの「電気自動車」、「エンジン」、「表示部」、「信号入力手段」が登録の対象とされる。   The words registered in the database in the process of FIG. 6 and FIG. 7 are mainly the words described before the reference symbols. For example, in the original text of the translation object, "the electric vehicle 100 includes the engine 101 and the display unit 102, and the engine 101 is connected to the signal input unit 103 and the display unit 102. When the input of the signal input unit 103 is high. If the display unit 102 displays a warning, the “electric car”, the “engine”, the “display unit”, and the “signal input unit” among them are to be registered.

なお、参照符号を伴わない「入力」、「警告」などの語も、暗号、対訳単語とともに図4のデータベース207に登録するようにしてもよい。   Note that words such as “input” and “warning” not accompanied by reference numerals may be registered in the database 207 of FIG. 4 together with the encryption and parallel translation words.

さらに、参照符号を伴う単語の少なくとも一部が登録の対象外となっていてもよい。すなわち、「電気自動車」、「エンジン」、「表示部」、「信号入力手段」のうちの少なくとも一部が登録されなくても良い。   Furthermore, at least a part of the words accompanied by the reference code may be excluded from the registration. That is, at least a part of the “electric car”, the “engine”, the “display unit”, and the “signal input unit” may not be registered.

ステップS213での登録の後に、原文の単語が長いもの順にソートされても良い。より長い単語が番号0の近く(上側)に、より短い単語がより大きい番号側(下側)に位置するようにソートするものである。   After registration in step S213, original words may be sorted in order of length. The longer words are sorted so that the shorter words are located closer to the number 0 (upper side) and the shorter words are located on the higher number side (lower side).

以上の処理により、「電気自動車100は、エンジン101と表示部102を備え、エンジン101は、信号入力手段103と表示部102に接続される。信号入力手段103の入力がハイである場合、表示部102は警告を表示する。」の文章は、   According to the above process, “the electric vehicle 100 includes the engine 101 and the display unit 102, and the engine 101 is connected to the signal input unit 103 and the display unit 102. When the input of the signal input unit 103 is high, the display is performed. The section 102 displays a warning. "

「 electric vehicle 100は、 engine 101と display 102を備え、 engine 101は、 signal input unit 103と display 102に接続される。 signal input unit 103の入力がハイである場合、 display 102は警告を表示する。」の文章に変換される。この文章をユーザはチェックし、誤りがないかを判断する。誤りがある場合、ワープロソフト上で編集を行う。   The electric vehicle 100 comprises an engine 101 and a display 102, and the engine 101 is connected to the signal input unit 103 and the display 102. If the input of the signal input unit 103 is high, the display 102 displays a warning. It is converted to the sentence of ". The user checks this sentence and determines whether there is an error. If there is an error, edit on the word processor software.

[第3の実施の形態]   Third Embodiment

図8は、本発明の第3の実施の形態における翻訳システムに含まれるコンピュータプログラムの日英翻訳処理を示すフローチャートである。   FIG. 8 is a flow chart showing Japanese-English translation processing of a computer program included in a translation system according to the third embodiment of the present invention.

このフローチャートで示される処理は、記憶装置111に記録されたコンピュータプログラムがRAM109上に読み出され、それをCPU101が順次実行することで実行される。プログラムは、コンパイルされた機械語の実行形式で保存されてもよいし、ソースコードをインタプリタが逐次実行する形式としてもよいし、中間言語で記載された形式としても良い。   The processing shown in this flowchart is executed by the computer program stored in the storage device 111 being read onto the RAM 109 and sequentially executed by the CPU 101. The program may be stored in a compiled form of machine language, or the source code may be sequentially executed by an interpreter, or may be written in an intermediate language.

図を参照して、ステップS101において、ユーザの指示に従ってCPU101は、翻訳する文書(文章)を入力する。ここで入力される文書は、図7での処理により変換が行われた後の文章であるものとする。ここでは、「 electric vehicle 100は、 engine 101と display 102を備え、 engine 101は、 signal input unit 103と display 102に接続される。 signal input unit 103の入力がハイである場合、 display 102は警告を表示する。」の文章が処理される例を説明する。   Referring to the figure, in step S101, CPU 101 inputs a document (sentence) to be translated according to a user's instruction. It is assumed that the document input here is a sentence after conversion by the processing in FIG. 7. Here, “electric vehicle 100 has engine 101 and display 102, and engine 101 is connected to signal input unit 103 and display 102. If the input of signal input unit 103 is high, display 102 will warn you. An example in which the sentence of "display" is processed will be described.

ステップS103においてCPU101は、入力文書に関して、機械翻訳に難がある部分を検索する。例えば、日本語から翻訳を行うのであれば、文書を「。」などの区点(英語からの翻訳であればピリオド)で区切ることで複数の文に分解し、各文が所定の長さ以内であるか(すなわち各文の長さが所定の閾値以下であるか)を判断するものである(閾値として、他社コンピュータ資源200の性能に応じ、例えば80〜120文字程度の値が選択される)。   In step S103, the CPU 101 searches the input document for a portion that has difficulty in machine translation. For example, when translating from Japanese, the document is divided into multiple sentences by dividing the document by a division point such as "." (Period in the case of translation from English), and each sentence is within a predetermined length. (Ie, whether the length of each sentence is equal to or less than a predetermined threshold) (for example, a value of about 80 to 120 characters is selected as the threshold according to the performance of another company's computer resource 200 ).

1文の長さが長ければ、機械翻訳は不正確になりやすいため、予め文章の長さをチェックし、長い文は翻訳不可とするものである。長い文章については、例えば重文であれば、「AはBであり、CはDである。」のような文章を、「AはBである。CはDである。」のような複数の文章に変換し、各文を短くする変換・編集処理が行われる。このような変換は自動で行っても良いし、ユーザに長いと判断された文章を示し、ユーザの手動で修正を促すようにしてもよい。また、自動で変換を行う場合には、自動変換後の文章(および必要であれば変換前の文章)をユーザに示し、正しく変換が行われているかをユーザにチェックさせることが望ましい。   If the length of one sentence is long, machine translation is likely to be inaccurate, so the length of the sentence is checked in advance, and a long sentence is not translatable. For a long sentence, for example, in the case of a complex sentence, a sentence such as “A is B and C is D.” A plurality of sentences such as “A is B. C is D.” A conversion / editing process is performed to convert into sentences and shorten each sentence. Such conversion may be performed automatically, or the user may indicate a sentence determined to be long, and the user may manually request correction. Further, in the case of performing conversion automatically, it is desirable to show the user the sentence after the automatic conversion (and the sentence before conversion if necessary) to make the user check whether the conversion is properly performed.

機械翻訳に難がある部分のチェックとしては、1文に主語があるか(例えば「○○は、」や「○○が、」に相当する語句が含まれているか)、1文中の主語と述語が対応しているかなどをチェックしても良い。より機械翻訳を誤訳無く正確に行うのであれば、例えば一文中に主語が1つのみであり、かつ述語が1つのみであることを翻訳可能な文の条件としても良い。   As a check of parts that have difficulty in machine translation, do you have the subject in one sentence (for example, does the phrase corresponding to “○○ are” or “○○ is” included?) Or the subject in one sentence You may check whether the predicates correspond or not. Furthermore, if machine translation is performed accurately and without mistranslation, for example, the condition that there is only one subject and one predicate in one sentence may be used as the condition of the translatable sentence.

これらのチェックについては、正規表現を利用して文のパターンをマッチングさせることで行ってもよい。形態素解析によりチェックを行ってもよい。また例えば学習済みのリカレントニューラルネットワーク(RNN)を用い、チェック対象の文章を入力とし、出力として機械翻訳に難がない文章を出力させる、または出力として難あり/なしの信号を出力させ、難がある場合にユーザに修正を促す、などを行うことも可能である。   These checks may be performed by matching sentence patterns using regular expressions. The check may be performed by morphological analysis. Also, for example, using a learned recurrent neural network (RNN), a sentence to be checked is used as an input, and a sentence having no difficulty in machine translation is output as an output, or a signal having difficulty or noness is output as an output. In some cases, it is also possible to prompt the user to make corrections.

ステップS105において、機械翻訳が可能な文章であるかのチェックを行い、難のある部分が存在するのであれば、ステップS103での処理を繰り返し行う。   In step S105, it is checked whether the text is machine-translatable. If there is a difficult part, the process in step S103 is repeated.

ステップS105において、機械翻訳が可能であると判断されたのであれば、ステップS107で文章の前処理を行う。これは、機械翻訳にミスがないよう、機械翻訳をしやすくする処理である。例えば複文であれば、「AがBのとき、CはDを行う。」の構造を有するが、翻訳ミスを防ぐため、複文の区切り部分(上記文章であれば、「とき、」の直後)に目印となるコードを埋め込む処理である。コードは、改行コード、スペース、区切りとなるキャラクターなどであり、翻訳に影響を与えず、区切りを機械にわかりやすくするためのコードが選択される。また、例えば「AはBであり、CはDである。」のような構造を有する重文を、重文の区切り部分(上記文章であれば、「であり、」の直後)に上記目印となるコードを埋め込んでもよい。ステップS107の処理により、機械翻訳において処理する文の単位が小さくなるため、機械翻訳において誤った主語−述語の組み合わせが選択されたり、その他の誤訳が生じることが防止される。   If it is determined in step S105 that machine translation is possible, text preprocessing is performed in step S107. This is a process that facilitates machine translation so that there is no mistake in machine translation. For example, if it is a compound sentence, it has a structure of “When A is B, C does D.” However, in order to prevent a translation error, a compound sentence delimiter (in the case of the above sentence, immediately after “when”) Is a process of embedding a code to be a mark. The code is a line feed code, a space, a character serving as a delimiter, etc. The code is selected to make the delimiter easy to understand without affecting the translation. Also, for example, a double sentence having a structure such as “A is B and C is D.” becomes the above-mentioned mark at the break part of the double sentence (in the case of the above sentence, immediately after “is and”). You may embed code. By the process of step S107, since the unit of sentences to be processed in the machine translation becomes smaller, it is possible to prevent the selection of the wrong subject-predicate combination in the machine translation and the occurrence of other mistranslations.

ステップS103〜S107での処理により、例えば上記の   By the processing in steps S103 to S107, for example,

「 electric vehicle 100は、 engine 101と display 102を備え、 engine 101は、 signal input unit 103と display 102に接続される。 signal input unit 103の入力がハイである場合、 display 102は警告を表示する。」の文章は、   The electric vehicle 100 comprises an engine 101 and a display 102, and the engine 101 is connected to the signal input unit 103 and the display 102. If the input of the signal input unit 103 is high, the display 102 displays a warning. The sentence of "is

「 electric vehicle 100は、 engine 101と display 102を備える。 engine 101は、 signal input unit 103と display 102に接続される。 signal input unit 103の入力がハイである場合、(改行コード)   The electric vehicle 100 comprises an engine 101 and a display 102. The engine 101 is connected to a signal input unit 103 and a display 102. When the input of the signal input unit 103 is high (line feed code)

display 102は警告を表示する。」  The display 102 displays a warning. "

の文章に変換される(ステップS103で単文化が行われ、ステップS107で複文を作る文の区切りに改行コードが挿入されている)。   (In step S103, a single culture is performed, and in step S107, a line feed code is inserted at the delimitation of a sentence that forms a compound sentence).

ステップS109において、記憶装置111中のデータベースを参照して、翻訳する文書内の参照符号前に記載されている単語(特に名詞)を暗号に変換する(第1の暗号化)。データベースは、原文と、暗号文字列と、翻訳文字列を対比させるものである。   In step S109, referring to the database in the storage device 111, the words (especially nouns) described before the reference code in the document to be translated are converted into a code (first encryption). The database contrasts the original text, the encrypted string, and the translated string.

ステップS109で参照符号前の単語を暗号に一括変換することによって、例えば上述の   By collectively converting the word before the reference code into the code in step S109, for example,

「 electric vehicle 100は、 engine 101と display 102を備える。 engine 101は、 signal input unit 103と display 102に接続される。 signal input unit 103の入力がハイである場合、(改行コード)   The electric vehicle 100 comprises an engine 101 and a display 102. The engine 101 is connected to a signal input unit 103 and a display 102. When the input of the signal input unit 103 is high (line feed code)

display 102は警告を表示する。」の文章は、  The display 102 displays a warning. The sentence of "is

「AAA100は、AAB101とFER102を備える。AAB101は、AAC103とFER102に接続される。AAC103の入力がハイである場合、(改行コード)   "AAA 100 comprises AAB 101 and FER 102. AAB 101 is connected to AAC 103 and FER 102. If the input of AAC 103 is high (line feed code)

FER102は警告を表示する。」 The FER 102 displays a warning. "

の暗号文に置き換えられる。   Is replaced by the ciphertext of

このような暗号文では、「AAA」などの26進数が単語として処理されるため、真の意味を外部に漏らすことなく、外部の他社コンピュータ資源200で機械翻訳可能である。   In such a ciphertext, since a hexadecimal number such as "AAA" is processed as a word, it is possible to machine-translate with other external computer resources 200 without leaking the true meaning to the outside.

ステップS109での処理は、以下のように行われる。   The process in step S109 is performed as follows.

(1)文書の先頭から、単語と参照符号の組み合わせからなる文章の構成部分を検索する。   (1) From the beginning of the document, search for a component part of a sentence consisting of a combination of a word and a reference code

(2)検索された構成部分の単語を、データベースから検索する。   (2) The word of the retrieved component part is retrieved from the database.

(3)対応する暗号をデータベースから得る。   (3) Obtain the corresponding cipher from the database.

(4)上記(2)で検索された構成部分の単語を、上記(3)で得た暗号に置換する。   (4) The word of the component part retrieved in (2) above is replaced with the code obtained in (3) above.

(5)文章中の次に現れる、単語と参照符号の組み合わせからなる文章の構成部分を検索する。   (5) Search for a component part of a sentence consisting of a combination of a word and a reference sign which appears next in the sentence.

(6)全ての構成部分が処理されるまで、上記(1)からの処理を繰り返す。全ての構成部分が処理されたのであれば、終了する。   (6) Repeat the process from the above (1) until all the component parts are processed. If all components have been processed, exit.

またはステップS109での処理は、以下のように行われてもよい。   Alternatively, the process in step S109 may be performed as follows.

(1)データベースに登録されている1番目の単語を読み出す   (1) Read out the first word registered in the database

(2)読み出された単語を、文書の先頭から全て検索し、データベースに登録されている対応する暗号に置換する(全文一括置換)。   (2) The read out words are all searched from the top of the document, and replaced with the corresponding encryption registered in the database (full text batch replacement).

(3)データベースに登録されている次の単語を読み出し、上記(2)の処理を繰り返す。データベースの登録単語全てについて処理が終われば、終了する。   (3) The next word registered in the database is read out and the process of (2) above is repeated. If all the registered words in the database have been processed, the process ends.

ステップS119以降の処理において、ステップS109までの処理で得られた機械翻訳前のデータは、先頭の1文から順に、HTTPS送信により、ニューラルネットワーク学習済みの他社コンピュータ資源200に送信されることとなる。   In the processing after step S119, the data before machine translation obtained in the processing up to step S109 will be transmitted to the other company computer resource 200, which has already undergone neural network learning, by HTTPS transmission sequentially from the first sentence. .

より詳しくは、翻訳前のデータの最初の1文(例えば、「。」の句点までの文章)がステップS119においてHTTPSにより外部の他社コンピュータ資源200に送信される。この送信は、暗号化される(第2の暗号化)。外部の他社コンピュータ資源200は、リクエストに応じ、受信したデータを対象言語に翻訳し、コンピュータ100に送信する。   More specifically, the first sentence of the data before translation (for example, the sentence up to the phrase point “.”) Is transmitted to the external competitor computer resource 200 by HTTPS in step S119. This transmission is encrypted (second encryption). The external third-party computer resource 200 translates the received data into a target language in response to the request, and transmits it to the computer 100.

ステップS121において、コンピュータ100は、HTTPSによるレスポンスとして、外部の他社コンピュータ資源200から翻訳後の1文のデータを得る。   In step S121, the computer 100 obtains one sentence of translated data from another external computer resource 200 as a response by HTTPS.

ステップS123において、最後の文まで翻訳が終了したかを判定し、NOであればステップS119において、次の1文の処理を行う。最後の文まで翻訳が終了したのであれば、ステップS125に進む。   In step S123, it is determined whether the translation is completed up to the last sentence. If NO, the process of the next one sentence is performed in step S119. If the translation is completed to the last sentence, the process proceeds to step S125.

ステップS125において、翻訳後の文書の後処理を行う。ここでは、ステップS119〜S123の処理で得られた1文ごとの翻訳文を1つの文書に纏める。また、ステップS109〜S113の第1の暗号化により得られた翻訳文は、暗号を含んでいるので、その暗号を、対応の訳語に一括変換する処理が行われる。これは、例えば以下のように行われる。   In step S125, post-translational processing of the document is performed. Here, the translated sentences for each sentence obtained in the process of steps S119 to S123 are combined into one document. In addition, since the translation obtained by the first encryption of steps S109 to S113 includes the encryption, the process of collectively converting the encryption to the corresponding translation is performed. This is performed, for example, as follows.

(1)データベースに登録されている1番目の暗号(「AAA」など)を読み出す。   (1) Read out the first cipher ("AAA", etc.) registered in the database.

(2)読み出された暗号を、文書の先頭から全て検索し、データベースの対応する訳語に置換する(全文一括置換)。   (2) All the read out ciphers are searched from the top of the document, and replaced with the corresponding translated word in the database (full text batch replacement).

(3)データベースに登録されている次の暗号を読み出し、上記(2)からの処理を繰り返す。データベースの登録暗号全てについて処理が終われば、終了する。   (3) The next cipher registered in the database is read out and the process from the above (2) is repeated. If processing for all registered encryptions in the database is completed, the process ends.

ステップS127において、複数形単語のチェックなどのスペルチェックを行う。ユーザは翻訳文を最終チェックし、問題があれば修正、編集を行う。   In step S127, spell check such as plural word check is performed. The user makes a final check of the translation, and corrects and edits any problems.

ステップS127での処理を行うことにより、   By performing the process in step S127,

「AAA 100 comprises AAB 101 and FER 102. AAB 101 is connected to AAC 103 and FER 102. When an input of AAC 103 is high,(改行コード)   “AAA 100 comprises AAB 101 and FER 102. AAB 101 is connected to AAC 103 and FER 102. When an input of AAC 103 is high, (line feed code)

FER 102 displays alert.」 FER 102 displays alerts. "

の文章から、   From the sentence of

「electric vehicle 100 comprises engine 101 and display 102. engine 101 is connected to signal input unit 103 and display 102. When an input of signal input unit 103 is high,(改行コード)   “Electric vehicle 100 comprises engine 101 and display 102. engine 101 is connected to signal input unit 103 and display 102. When an input of signal input unit 103 is high, (line feed code)

display 102 displays alert.」 display 102 displays alerts. "

の文が得られる。   Sentence is obtained.

ステップS125、ステップS127において、図5のステップS135、S137と同様の処理を行うことで、第1の実施の形態と同様の効果を得ることができる。   By performing the same processes as steps S135 and S137 of FIG. 5 in steps S125 and S127, the same effects as those of the first embodiment can be obtained.

[第4の実施の形態]   Fourth Embodiment

図9は、本発明の第4の実施の形態における翻訳システムに含まれるコンピュータプログラムの日英翻訳処理を示すフローチャートである。   FIG. 9 is a flow chart showing Japanese-English translation processing of a computer program included in a translation system according to the fourth embodiment of the present invention.

このフローチャートでの処理は、図8の処理に加えて、ステップS111、S113の処理が追加されたものである。   The processing in this flowchart is obtained by adding the processing of steps S111 and S113 to the processing of FIG.

ステップS109での処理の後に、ステップS111において、データベースに登録がないことで、変換ができなかった参照符号前の単語があるかを判定する。これは、単語と参照符号の組み合わせからなる文章の構成部分が存在するか否かを正規表現を用いて判断しても良いし、ユーザが目視で確認しても良い。   After the process in step S109, it is determined in step S111 whether there is a word before the reference code that could not be converted because there is no registration in the database. This may be determined using a regular expression whether or not there is a text component consisting of a combination of a word and a reference code, or the user may check visually.

ステップS111でYESであれば、ステップS113に進む。ステップS113においては、ステップS111で変換できなかった単語と、その暗号、および訳語をセットにしてデータベースに登録する。例えば、変換できなかった単語を白黒反転表示として目立たせた上で、「○○の訳語を入力してください」の語と単語入力フィールドを含むダイアログボックスを表示し、ユーザから入力を受け付けるようにしてもよい。例えば、文書中の「電気自動車」の単語を反転表示し、「『電気自動車』の訳語を入力してください」の語と単語入力フィールドを含むダイアログボックスを表示し、ユーザから「electric vehicle」の入力を受け付けるものである。単語と、その暗号、および訳語はセットにされ、データベースに登録される。なお、暗号は自動作成することが望ましい。   If YES in step S111, the process proceeds to step S113. In step S113, the word that could not be converted in step S111, its code and translated word are registered in the database as a set. For example, a word that could not be converted is highlighted as black and white inverted display, and then a dialog box including the words “Please enter translated ○” and a word input field is displayed, and input is accepted from the user. May be For example, highlight the word "Electric car" in the document, display a dialog box containing the words "Please enter the translation of" Electric car "" and the word entry field, and from the user "electric vehicle" It accepts input. Words and their ciphers and translations are made into sets and registered in the database. In addition, it is desirable to create a cipher automatically.

ステップS111でNOとなるまで、ステップS113での処理は繰り返し行われる。   The process in step S113 is repeatedly performed until NO in step S111.

ステップS111でNOとなったのであれば、ステップS119への処理に進む。   If NO in step S111, the process proceeds to step S119.

[その他]   [Others]

上述の複数の実施の形態、およびそれに含まれる要素(一部の構成、一部の処理)を組み合わせたり、入替えたりすることで新たな別の実施の形態とすることもできる。   A plurality of the above-described embodiments and elements included in the above (a part of the configuration, a part of the processing) may be combined or replaced to provide another new embodiment.

全文一括変換(単語を対訳単語に、または対訳単語を暗号に変換する処理)を行うとき、検索対象の語は、長い単語から順にデータベースから読み出すことが望ましい。例えば、データベース中に、「検出手段」を「detection means」に変換するレコードと、「情報検出手段」を「information detection means」に変換するの2つのレコードがあった場合、長い単語である「情報検出手段」を「information detection means」に一括変換する処理をした後で、より短い単語である「検出手段」を「detection means」に一括変換する処理をするものである。これにより、文書中の「情報検出手段」の「検出手段」の部分のみが変換されることを防ぎ、翻訳の効率を上げることができる。また、単語を暗号に変換する場合も同様に、長い単語から順にデータベースから読み出すことで、一連の意味を持つ単語の集合の一部のみが暗号に変換されることを防ぐことができる。   When performing full-text batch conversion (processing to convert words into parallel words or parallel words into encryption), it is desirable that the search target words be read from the database in order from the long words. For example, if there are two records in the database, one for converting "detection means" to "detection means" and one for converting "information detection means" to "information detection means" After the processing of collectively converting “detection means” into “information detection means”, the processing of collectively converting shorter words “detection means” into “detection means” is performed. As a result, it is possible to prevent the conversion of only the portion of the "detection means" of the "information detection means" in the document, and to increase the efficiency of translation. Further, also when converting words into codes, reading out from the database in order from long words can prevent only a part of a set of words having a series of meanings from being converted into codes.

レコード番号の小さいものから順に単語を読み出して一括変換する場合は、レコードを登録単語の文字数によってソートすることとしてもよい。   When the words are read out in order from the smallest record number and subjected to batch conversion, the records may be sorted according to the number of registered words.

特許明細書であれば、その末尾に「符号の説明」の項目があり、一般に重要な参照符号とそれが示す構成要素(単語)がそこに説明されている。符号の説明の項目に記載された単語のみを暗号化することとしてもよい。機械翻訳前に、符号の説明の項目に記載された単語が文書中で暗号化されていない場合、警告を出すこととしてもよい。   In the case of a patent specification, there is an item "explanation of symbols" at the end, in which generally important reference symbols and the components (words) that they indicate are explained there. Only the words described in the item of the explanation of the code may be encrypted. Before machine translation, a warning may be issued if the word described in the item of the code description is not encrypted in the document.

また、特許明細書であれば、発明を実施するための形態、図面の簡単な説明、発明の効果、課題を解決するための手段、書類名 明細書、発明の名称、技術分野、背景技術、先行技術文献、特許文献、発明の概要、符号の説明、書類名 請求の範囲、書類名 要約書、などをそれぞれ単語と見なして暗号化しても良い。これにより、翻訳対象の文章が特許明細書であることを分かりにくくすることができる。   In the case of a patent specification, a mode for carrying out the invention, a brief description of the drawings, an effect of the invention, a means for solving the problem, a document name, a title of the invention, a technical field, a background art, Prior art documents, patent documents, outlines of the invention, explanation of symbols, document names, claims, document names, abstracts, etc. may be regarded as words and encrypted. This makes it difficult to understand that the text to be translated is a patent specification.

特許明細書など、図面の参照符号を参照して説明を行う書類では、文書中の参照符号の前にある名詞である単語が特に重要な意味を持つ。参照符号の前にある単語の少なくとも一部を暗号(または対訳語)に置換することで、本発明は高い効果を発揮することができる。もちろん、文書中の参照符号の前にある単語以外の単語の少なくとも一部を暗号(または対訳語)に置換することとしてもよい。また、文書中の参照符号の前にある単語は暗号(または対訳語)に置換せずに、文書中の参照符号の前にある単語以外の単語の少なくとも一部を暗号(または対訳語)に置換することとしてもよい。   In a document, such as a patent specification, which is described with reference to the reference numerals of the drawings, words that are nouns preceding the reference numerals in the document have a particularly important meaning. The present invention can be highly effective by replacing at least a part of a word preceding a reference code with a code (or a parallel word). Of course, at least a part of words other than the word before the reference code in the document may be replaced with a code (or a parallel word). Also, do not replace words in the document before reference signs with the code (or equivalent words), but at least partially encrypt words other than the words in the document before the reference signs It is also possible to replace.

文書中に現れる、名詞である単語と参照符号とのセット(名詞である単語とその直後に続く参照符号とからなるセット)のうち、名詞である単語の部分のみを一括変換の対象としてデータベースに登録し、参照符号は一括変換の対象に含めないことが望ましい。このようにすることで、異なる参照符号が付与された同一の単語も、そのデータベースを用いて処理することができる(将来、他の文書を翻訳するときにもそのデータベースをより有効に活用することができる)。   Of the set of words that are nouns and reference signs that appear in the document (a set of words that are nouns and the reference signs that immediately follow them), only the word parts that are nouns are subject to batch conversion in the database It is desirable to register, and not to include reference symbols in the target of batch conversion. In this way, the same words with different reference signs can also be processed using that database (in the future, even when translating other documents, more effectively utilizing that database) Can)

参照符号を含まない書類にも本発明は適用可能である。この場合、文書中の単語の少なくとも一部が暗号(または対訳語)に置換された後に、機械翻訳される。   The invention is also applicable to documents which do not contain reference signs. In this case, at least a part of the words in the document is machine-translated after being replaced with a code (or a parallel word).

図4のステップS105、図8のステップS109でのデータベースを用いた一括変換処理は、連続して複数回行うこととしてもよい。例えば、ユーザが事前に「検出手段」→「detection means」の変換を行うレコードをデータベースに記録することで、翻訳書類中の「情報検出手段」が「情報 detection means」と変換されることがある。これは単語の一部が変換されたケースである。この場合、ユーザは「情報 detection means」を単語として選択し、その対訳として「information detection means」をデータベースに新たなレコードとして記録することになる。そのデータベースを使って次の書類を翻訳する際に、文書の中に「情報検出手段」の語が存在すると、当該データベースを用いた一括変換でその語は、「情報 detection means」にまず変換される。データベースの検索順でその後に検索語「情報 detection means」が出てくれば、「情報 detection means」は、「information detection means」に問題なく変換される。しかし、データベースでの検索順が、「情報 detection means」の方が「検出手段」よりも前であれば、データベースを用いた一括変換処理を1回行っただけでは、「情報 detection means」は、「information detection means」に変換されない。   The batch conversion process using the database in step S105 of FIG. 4 and step S109 of FIG. 8 may be performed plural times in succession. For example, the user may convert the "information detection means" in the translated document into "information detection means" by recording in the database a record in which "detection means" → "detection means" is converted in advance. . This is the case where some of the words have been converted. In this case, the user selects "information detection means" as a word, and records "information detection means" as a new record in the database as a parallel translation. When the next document is translated using that database, if the word "information detection means" is present in the document, the word is first converted to "information detection means" by batch conversion using the database. Ru. If the search term "information detection means" subsequently appears in the search order of the database, "information detection means" is converted into "information detection means" without any problem. However, if “information detection means” is earlier than “detection means” in the search order in the database, “information detection means” is It is not converted to "information detection means".

そこで、データベースを用いた一括変換処理を、2回(あるいはそれ以上)繰り返して行うことで、再度の一括変換を行うものである。これにより、「情報 detection means」などの、原文に一部翻訳語を含む単語であっても、「information detection means」など正しい単語に変換される。   Therefore, the batch conversion process using the database is repeated twice (or more) to perform the batch conversion again. As a result, even a word such as "information detection means" that includes a partially translated word in the original text is converted into a correct word such as "information detection means".

また、実施の形態においてはニューラルネットワークを用いた機械翻訳を行う例を挙げたが、統計的機械翻訳や、フレーズベース、ルールベースの機械翻訳、人工知能機械翻訳、ディープラーニング機械翻訳などを用いてもよく、本発明は、ニューラルネットワークを用いた機械翻訳に限定されるものではない。   In the embodiment, an example of performing machine translation using a neural network has been described, but statistical machine translation, phrase-based, rule-based machine translation, artificial intelligence machine translation, deep learning machine translation, etc. are used. Also, the present invention is not limited to machine translation using a neural network.

外部の他社コンピュータ資源200へ情報を送受信する方法は、WEBページを介して行っても良い。ブラウザ操作の自動化手法によって、情報を送受信してもよい。また、外部の他社コンピュータ資源を運営する事業者が提供するAPIを用いて情報を送受信してもよい。   A method of transmitting and receiving information to / from the external third party computer resource 200 may be performed via a WEB page. Information may be transmitted and received by a browser operation automation method. Also, information may be transmitted / received using an API provided by a company operating an external third party computer resource.

上記後処理としては、文章中の不要なスペースの削除、単語の統一、文章中の大文字の小文字の変換、スペルチェック、複数形の単語を正しい表記にする処理などを行ってもよい。   As the above-mentioned post-processing, deletion of unnecessary spaces in sentences, unification of words, conversion of upper case and lower case in sentences, spell check, processing of converting plural words into correct notation and the like may be performed.

[実施の形態の効果]   [Effect of the embodiment]

以上の実施の形態により、翻訳原文、翻訳後の文章の双方とも、第1の暗号化および第2の暗号化という2段階の暗号化が行われる。第三者に対しては両暗号化により文書の秘匿性が保たれる。また、翻訳サービスの提供事業者に対しては、第1の暗号化により文書の秘匿性が保たれる。これにより、外部翻訳サービスを利用しながらも、情報の外部流出を避けることができる。   According to the above embodiment, two-stage encryption of the first encryption and the second encryption is performed on both the translated original text and the post-translation text. For the third party, both encryptions maintain the secrecy of the document. Further, for the provider of the translation service, secrecy of the document is maintained by the first encryption. This makes it possible to avoid the external outflow of information while using an external translation service.

情報を送信するコンピュータ資源が、不特定多数(または複数の者、他人)が利用するコンピュータ資源であっても、情報の秘密性を確保することができる。なお、「不特定多数の利用」とは、そのサイト(サーバ)が一般に公開され、各所からアクセス可能であることを意味している。   Even if the computer resource transmitting the information is a computer resource used by an unspecified number (or a plurality of persons, others), the confidentiality of the information can be ensured. Note that "use of unspecified number" means that the site (server) is open to the public and accessible from various places.

また、従来技術のニューラル機械翻訳には、入力文に含まれる情報を過不足なく厳密に翻訳することができない(翻訳の抜けが生じる可能性がある)という問題点があった。また、翻訳の重複した箇所が出力されることもあった。本実施の形態では、原文を暗号化により圧縮(短くシンプルに)することができる。また文の構造を簡略化(短くシンプルに)することができる。これにより、ニューラル機械翻訳を採択しても、入力文に含まれる情報を過不足なく翻訳でき、翻訳の抜けが生じにくいという効果がある。また、翻訳の重複した箇所が出力されにくいという効果がある。   In addition, in the prior art neural machine translation, there is a problem that the information contained in the input sentence can not be translated exactly (there is a possibility that translation omission may occur). In addition, duplicate parts of the translation may be output. In this embodiment, the original text can be compressed (short and simple) by encryption. In addition, the structure of the sentence can be simplified (short and simple). As a result, even if the neural machine translation is adopted, the information contained in the input sentence can be translated without excess or deficiency, and there is an effect that the omission of translation hardly occurs. In addition, there is an effect that it is difficult to output duplicate portions of translation.

さらに、これまで用いられてきた学習データ(対訳辞書データ、語順データなど)をデータベースに登録するデータとして利用しやすいという効果がある。   Furthermore, there is an effect that it is easy to use the learning data (bilingual dictionary data, word order data, etc.) used so far as data registered in the database.

さらに、従来技術のニューラル機械翻訳では、Word Embeddingにより柔軟な翻訳ができる反面、全く異なる単語(時には意味の無い文字列)が選択されることで、意味の全く異なる翻訳文が作成されることもあった(特に出現頻度の低い語、出現頻度の低い固有名詞など)。また、長い文章、複雑な文章の場合、意味の通じない翻訳文が作成されることもあった。本実施の形態では、単語が予め対訳単語または暗号に一括変換された後、機械翻訳される(好ましくは、さらに鉤括弧などを付与した状態で機械翻訳される)。これにより機械翻訳で、原文の単語が全く意味の異なる対訳単語に翻訳されることがなくなる。   Furthermore, in the prior art neural machine translation, while flexible translation can be performed by Word Embedding, completely different words (sometimes meaningless character strings) may be selected to create translated sentences with completely different meanings. (In particular, words with low frequency of occurrence, proper nouns with low frequency of occurrence, etc.). In addition, in the case of long sentences or complex sentences, translated sentences having meaningless were sometimes created. In this embodiment, a word is converted into a bilingual word or a code in advance and then machine-translated (preferably, machine-translated in a state in which brackets are additionally provided). This prevents machine translation from translating the original words into bilingual words that have completely different meanings.

上述の実施の形態における処理は、ソフトウェアにより行っても、ハードウェア回路を用いて行ってもよい。また、上述の実施の形態における処理を実行するプログラムを提供することもできるし、そのプログラムをCD−ROM、フレキシブルディスク、ハードディスク、ROM、RAM、メモリカードなどの記録媒体に記録してユーザーに提供することにしてもよい。プログラムは、CPUなどのコンピューターにより実行される。また、プログラムはインターネットなどの通信回線を介して、装置にダウンロードするようにしてもよい。   The processing in the above embodiment may be performed by software or may be performed using a hardware circuit. In addition, a program for executing the processing in the above-described embodiment can be provided, and the program is provided to the user by being recorded on a recording medium such as a CD-ROM, a flexible disk, a hard disk, a ROM, a RAM, and a memory card. You may decide to do it. The program is executed by a computer such as a CPU. Also, the program may be downloaded to the device via a communication line such as the Internet.

上記実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。   It should be understood that the above embodiments are illustrative and non-restrictive in every respect. The scope of the present invention is indicated not by the above description but by claims, and is intended to include all modifications within the meaning and scope equivalent to claims.

100 コンピュータ
101 CPU
103 通信部
109 RAM
111 記憶装置
200 他社コンピュータ資源
203 検索・置換部
205 文書編集・単語登録部
207 データベース
209 メモリ
211 表示/出力部
213 入力部
400 インターネット
500 自社コンピュータ資源

100 computers 101 CPU
103 Communication unit 109 RAM
111 Storage device 200 Other company computer resource 203 Search / replacement unit 205 Document editing / word registration unit 207 Database 209 Memory 211 Display / output unit 213 Input unit 400 Internet 500 Own company computer resource

Claims (16)

不特定多数が利用するコンピュータであって、第1の言語で記述された文章をインターネットを通じて入力し、それを第2の言語で記述された文章に翻訳し、翻訳された文章をインターネットを通じて送信するコンピュータとの間で通信を行う翻訳装置において、
前記第1の言語で記述された文章は、その一部に、名詞である単語とその直後に続く参照符号とからなるセットを含んでおり、
前記翻訳装置は、
前記名詞である単語とその直後に続く参照符号とからなるセット中の単語部分を、その単語に対応する文字列に置き換える第1の置換手段と、
前記第1の置換手段で置き換えが行われた文章を、インターネットを通じて前記コンピュータに送信する送信手段と、
前記コンピュータから、翻訳後の前記第2の言語で記述された文章をインターネットを通じて受信する受信手段とを備えた、翻訳装置。
A computer used by an unspecified number of people, which inputs sentences written in a first language through the Internet, translates them into sentences written in a second language, and transmits the translated sentences through the Internet In a translation device that communicates with a computer,
The sentence described in the first language includes, in its part, a set of a word which is a noun and a reference code immediately following it;
The translation device
First replacing means for replacing a word portion in a set consisting of the word which is the noun and a reference code immediately following it with a character string corresponding to the word;
Transmitting means for transmitting the text replaced by the first replacing means to the computer through the Internet;
And a receiving unit configured to receive, from the computer, translated sentences written in the second language through the Internet.
前記受信手段が受信した文章中における、前記第1の置換手段で置き換えられた文字列を、それに対応する前記第2の言語の単語に置き換える第2の置換手段をさらに備えた、請求項1に記載の翻訳装置。   The method according to claim 1, further comprising: second replacing means for replacing the character string replaced by the first replacing means in the text received by the receiving means with the corresponding word of the second language. Translation device as described. 前記第1の置換手段による置き換え後の文字列は、前記名詞である単語に対応する前記第2の言語の単語、又は暗号文字列である、請求項1または2に記載の翻訳装置。   The translation apparatus according to claim 1, wherein the character string after replacement by the first replacement unit is a word of the second language corresponding to the word that is the noun, or a cipher string. 前記名詞である単語は、上付き若しくは下付き文字を含む、請求項1から3のいずれかに記載の翻訳装置。   The translation device according to any one of claims 1 to 3, wherein the word which is the noun includes superscripts or subscripts. 前記第1の置換手段は、
データベースに登録された、単語とその置き換え文字列とを対応付ける複数の組から、1つの組における単語、及びその置き換え文字列を読み出す読出手段と、
前記読出手段によって読み出された1つの単語を、前記第1の言語で記述された文章中から検索し、それがあった場合にその単語をそれに対応付けられた置き換え文字列に置換する処理を、前記第1の言語で記述された文章内において繰り返し行う第1の処理手段とを備え、
前記第1の処理手段で前記第1の言語で記述された文章内の全ての置換えを行った後に、前記読出手段で次の組における単語、及びその置き換え文字列を読み出し、前記第1の処理手段での処理を行う、請求項1から4のいずれかに記載の翻訳装置。
The first replacement means is
Reading means for reading out a word in one set and a replacement string thereof from a plurality of sets which are registered in the database and which associate words with replacement strings thereof;
A process of searching for one word read by the reading means from a sentence described in the first language, and replacing the word with a replacement character string associated with the word if it is found A first processing unit that repeatedly performs in a sentence described in the first language;
After all substitution in the sentence described in the first language is performed by the first processing means, the reading means reads the word in the next set and the replacement character string, and the first process The translation apparatus according to any one of claims 1 to 4, wherein the processing is performed by means.
前記送信手段は、前記第1の言語で記述された文章を分割することにより得られた複数の単位部分のうち、1つの単位部分を前記コンピュータに送信し、
前記受信手段は、前記1つの単位部分についての翻訳後の前記第2の言語で記述された文章を受信し、
前記複数の単位部分のそれぞれに対して、前記送信手段での処理と、前記受信手段での処理とを行う、請求項1から5のいずれかに記載の翻訳装置。
The transmitting means transmits one unit part of the plurality of unit parts obtained by dividing the sentence described in the first language to the computer.
The receiving means receives a sentence described in the second language after translation for the one unit part,
The translation apparatus according to any one of claims 1 to 5, wherein the processing in the transmission unit and the processing in the reception unit are performed on each of the plurality of unit parts.
前記単位部分は、前記第1の言語で記述された文章を、句点、読点、および改行コードの少なくとも1つの位置で分割した部分である、請求項6に記載の翻訳装置。   The translation device according to claim 6, wherein the unit part is a part obtained by dividing a sentence described in the first language at at least one position of a phrase, a reading point, and a line feed code. 前記単位部分は、前記第1の言語で記述された文章を、句点の位置で分割した部分であり、
前記単位部分において、それに含まれる少なくとも一部の句又は節の後に改行コードが挿入されている、請求項6または7に記載の翻訳装置。
The unit part is a part obtained by dividing the sentence described in the first language at the position of the phrase point,
The translation device according to claim 6, wherein a line feed code is inserted in the unit part after at least a part of phrases or clauses included in the unit part.
前記受信手段は、前記単位部分についての翻訳後の前記第2の言語で記述された文章を順次受信し、受信された文書同士を、その間にスペースを挿入して結合する、請求項6から8のいずれかに記載の翻訳装置。   9. The reception method according to claim 6, wherein the reception means sequentially receives the sentences described in the second language after the translation for the unit part, inserts the spaces between the received documents, and combines them. The translation device according to any of the above. 前記受信手段による受信後の文章を、後処理する後処理手段をさらに備え、
前記後処理手段は、文章中のスペースの削除、単語の統一、文章中の大文字/小文字の変換、スペルチェック、および複数形の単語を正しい表記にする処理の少なくとも1つを行う、請求項1から9のいずれかに記載の翻訳装置。
It further comprises post-processing means for post-processing the text received by the receiving means,
The post-processing means performs at least one of deletion of a space in a sentence, unification of words, conversion of upper / lower case in a sentence, spell check, and correct notation of plural words. The translation apparatus according to any one of.
前記第1の言語で記述された文章は、その一部に、段落番号を含んでおり、
前記送信手段は、前記文章に含まれる段落番号を送信しない、請求項1から10のいずれかに記載の翻訳装置。
The sentences described in the first language include, in part, paragraph numbers,
The translation apparatus according to any one of claims 1 to 10, wherein the transmission means does not transmit a paragraph number included in the sentence.
前記文章に含まれる段落番号を、全角から半角に変換し、前記受信手段が受信した文章の対応する位置に挿入する、請求項11に記載の翻訳装置。   The translation apparatus according to claim 11, wherein a paragraph number included in the sentence is converted from full-width to half-width, and inserted into a corresponding position of the text received by the receiving means. 前記第1の置換手段は、第1の言語で記述された文章中の特定の単語を、それに対応する文字列に置き換え、その文字列の前および後の少なくともいずれかに、特定の文字コードを挿入する、請求項1から12のいずれかに記載の翻訳装置。   The first replacing means replaces a specific word in a sentence described in the first language with a corresponding character string, and a specific character code at least before or after the character string. The translation device according to any one of claims 1 to 12, which is inserted. 前記特定の文字コードは、空白文字、または括弧、クォーテーション記号その他の囲まれる部分を他と区別するための印を表すコードである、請求項13に記載の翻訳装置。   The translation apparatus according to claim 13, wherein the specific character code is a code representing a space character or a mark for distinguishing brackets, quotation marks, and other enclosed parts from others. 不特定多数が利用する外部コンピュータであって、第1の言語で記述された文章をインターネットを通じて入力し、それを第2の言語で記述された文章に翻訳し、翻訳された文章をインターネットを通じて送信する外部コンピュータとの間で通信を行う翻訳装置の制御プログラムにおいて、
前記翻訳装置は、コンピュータを含み、
前記第1の言語で記述された文章は、その一部に、名詞である単語とその直後に続く参照符号とからなるセットを含んでおり、
前記翻訳装置の制御プログラムは、
前記名詞である単語とその直後に続く参照符号とからなるセット中の単語部分を、その単語に対応する文字列に置き換える第1の置換ステップと、
前記第1の置換ステップで置き換えが行われた文章を、インターネットを通じて前記外部コンピュータに送信する送信ステップと、
前記外部コンピュータから、翻訳後の前記第2の言語で記述された文章をインターネットを通じて受信する受信ステップとをコンピュータに実行させる、翻訳装置の制御プログラム。
It is an external computer used by an unspecified number of people, and it inputs sentences written in the first language through the Internet, translates it into sentences written in the second language, and sends the translated sentences through the Internet In a control program of a translation apparatus that communicates with an external computer
The translation device includes a computer
The sentence described in the first language includes, in its part, a set of a word which is a noun and a reference code immediately following it;
The control program of the translation device is
A first replacement step of replacing a word portion in a set consisting of the word which is the noun and a reference code immediately after it with a character string corresponding to the word;
Transmitting the text replaced in the first replacement step to the external computer through the Internet;
A control program of a translation apparatus, which causes a computer to execute a receiving step of receiving a sentence described in the second language after translation from the external computer through the Internet.
不特定多数が利用する外部コンピュータであって、第1の言語で記述された文章をインターネットを通じて入力し、それを第2の言語で記述された文章に翻訳し、翻訳された文章をインターネットを通じて送信する外部コンピュータとの間で通信を行う翻訳装置を用いた翻訳方法において、
前記翻訳装置は、コンピュータを含み、
前記第1の言語で記述された文章は、その一部に、名詞である単語とその直後に続く参照符号とからなるセットを含んでおり、
前記翻訳方法は、
前記翻訳装置によって、前記名詞である単語とその直後に続く参照符号とからなるセット中の単語部分を、その単語に対応する文字列に置き換える第1の置換ステップと、
前記翻訳装置によって、前記第1の置換ステップで置き換えが行われた文章を、インターネットを通じて前記外部コンピュータに送信する送信ステップと、
前記翻訳装置によって、前記外部コンピュータから、翻訳後の前記第2の言語で記述された文章をインターネットを通じて受信する受信ステップとを含む、翻訳装置を用いた翻訳方法。
It is an external computer used by an unspecified number of people, and it inputs sentences written in the first language through the Internet, translates it into sentences written in the second language, and sends the translated sentences through the Internet In a translation method using a translation device that communicates with an external computer
The translation device includes a computer
The sentence described in the first language includes, in its part, a set of a word which is a noun and a reference code immediately following it;
The translation method is
A first replacement step of replacing, by the translation device, a word portion in a set consisting of the word which is the noun and a reference code immediately following it, with a character string corresponding to the word;
Transmitting, by the translation device, the text replaced in the first replacement step to the external computer through the Internet;
Receiving at the translation apparatus the sentence described in the second language after translation from the external computer via the Internet.
JP2018209280A 2018-11-06 2018-11-06 Translation apparatus, control program for translation apparatus, and translation method using translation apparatus Active JP6518981B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018209280A JP6518981B1 (en) 2018-11-06 2018-11-06 Translation apparatus, control program for translation apparatus, and translation method using translation apparatus
JP2019061814A JP7333933B2 (en) 2018-11-06 2019-03-27 TRANSLATION DEVICE, CONTROL PROGRAM FOR TRANSLATION DEVICE, AND TRANSLATION METHOD USING TRANSLATION DEVICE

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018209280A JP6518981B1 (en) 2018-11-06 2018-11-06 Translation apparatus, control program for translation apparatus, and translation method using translation apparatus

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019061814A Division JP7333933B2 (en) 2018-11-06 2019-03-27 TRANSLATION DEVICE, CONTROL PROGRAM FOR TRANSLATION DEVICE, AND TRANSLATION METHOD USING TRANSLATION DEVICE

Publications (2)

Publication Number Publication Date
JP6518981B1 true JP6518981B1 (en) 2019-05-29
JP2020077134A JP2020077134A (en) 2020-05-21

Family

ID=66655745

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018209280A Active JP6518981B1 (en) 2018-11-06 2018-11-06 Translation apparatus, control program for translation apparatus, and translation method using translation apparatus

Country Status (1)

Country Link
JP (1) JP6518981B1 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020077356A (en) * 2018-11-06 2020-05-21 株式会社椿知財サービス Translation apparatus, control program of translation apparatus, and translation method using translation apparatus
JP2020123215A (en) * 2019-01-31 2020-08-13 株式会社椿知財サービス Translation device, control program of translation device, and translation method using translation device
JP2021026590A (en) * 2019-08-07 2021-02-22 株式会社椿知財サービス Translation device, program for controlling translation device, and translation evaluation method using translation device
JP2023506362A (en) * 2019-11-07 2023-02-16 達而観信息科技(上海)有限公司 DOCUMENT AUDIT METHOD, APPARATUS, SYSTEM, DEVICE AND STORAGE MEDIUM
US20230120230A1 (en) * 2021-10-20 2023-04-20 Transfluent Oy Method and system for translating source text of first language to second language

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3092690B1 (en) 2019-02-11 2022-05-06 Amadeus Sas SYSTEM AND METHOD FOR REAL-TIME TRIPARTITE TRANSACTION PROCESSING

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132764A (en) * 2000-10-27 2002-05-10 Sharp Corp Machine translation preprocessor
JP2003323425A (en) * 2002-05-02 2003-11-14 Just Syst Corp Parallel translation dictionary creating device, translation device, parallel translation dictionary creating program, and translation program
JP4419871B2 (en) * 2005-03-02 2010-02-24 富士ゼロックス株式会社 Translation request apparatus and program
JP5833087B2 (en) * 2013-11-13 2015-12-16 日本電信電話株式会社 Character string processing apparatus, method, and program
JP2016062278A (en) * 2014-09-18 2016-04-25 コニカミノルタ株式会社 Object processing system, client, object processing method, and computer program
JP2018190287A (en) * 2017-05-10 2018-11-29 日本特許翻訳株式会社 Machine translation device and program

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020077356A (en) * 2018-11-06 2020-05-21 株式会社椿知財サービス Translation apparatus, control program of translation apparatus, and translation method using translation apparatus
JP7333933B2 (en) 2018-11-06 2023-08-28 株式会社椿知財サービス TRANSLATION DEVICE, CONTROL PROGRAM FOR TRANSLATION DEVICE, AND TRANSLATION METHOD USING TRANSLATION DEVICE
JP2020123215A (en) * 2019-01-31 2020-08-13 株式会社椿知財サービス Translation device, control program of translation device, and translation method using translation device
JP7396608B2 (en) 2019-01-31 2023-12-12 株式会社椿知財サービス Translation device, translation device control program, and translation method using the translation device
JP2021026590A (en) * 2019-08-07 2021-02-22 株式会社椿知財サービス Translation device, program for controlling translation device, and translation evaluation method using translation device
JP2023506362A (en) * 2019-11-07 2023-02-16 達而観信息科技(上海)有限公司 DOCUMENT AUDIT METHOD, APPARATUS, SYSTEM, DEVICE AND STORAGE MEDIUM
US20230120230A1 (en) * 2021-10-20 2023-04-20 Transfluent Oy Method and system for translating source text of first language to second language
US11983505B2 (en) * 2021-10-20 2024-05-14 Transfluent Oy Method and system for translating source text of first language to second language

Also Published As

Publication number Publication date
JP2020077134A (en) 2020-05-21

Similar Documents

Publication Publication Date Title
JP6518981B1 (en) Translation apparatus, control program for translation apparatus, and translation method using translation apparatus
Riza et al. Introduction of the asian language treebank
EP0519049B1 (en) Machine translation and telecommunications system
US5497319A (en) Machine translation and telecommunications system
RU2571373C2 (en) Method of analysing text data tonality
US20070143410A1 (en) System and method for defining and translating chat abbreviations
US9514185B2 (en) Answering time-sensitive questions
US20100114562A1 (en) Document processor and associated method
Megyesi et al. Decryption of historical manuscripts: the decrypt project
JP7333933B2 (en) TRANSLATION DEVICE, CONTROL PROGRAM FOR TRANSLATION DEVICE, AND TRANSLATION METHOD USING TRANSLATION DEVICE
Sitender et al. Sansunl: a Sanskrit to UNL enconverter system
KR20210013991A (en) Apparatus, method, computer program, computer-readable storage device, server and system for drafting patent document
Asif et al. Automated analysis of Pakistani websites’ compliance with GDPR and Pakistan data protection act
JP7396608B2 (en) Translation device, translation device control program, and translation method using the translation device
CN106775914B (en) A kind of code method for internationalizing and device for automatically generating key assignments
JP2022016829A (en) Translation device, control program for translation device, and translation method using translation device
JP2022087934A (en) Translation apparatus, control program of translation apparatus, and translation method using translation apparatus
JP2021022203A (en) Translation evaluation device, program for controlling translation evaluation device, and translation evaluation method using translation evaluation device
JP2021026590A (en) Translation device, program for controlling translation device, and translation evaluation method using translation device
Rashmi et al. Qualitative and quantitative study of syntactic structure: a grammar checker using part of speech tags
CN111611779A (en) Auxiliary text labeling method, device and equipment and storage medium thereof
EP1912164A2 (en) Content enhancement system and method and applications thereof
Mustafa et al. Translation techniques used in translating a smartphone user manual
Hussain et al. Enabling multilingual domain names: addressing the challenges of the Arabic script top-level domains
Murata et al. Japanese-to-English translations of tense, aspect, and modality using machine-learning methods and comparison with machine-translation systems on market

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181108

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20181108

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20181214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190327

R150 Certificate of patent or registration of utility model

Ref document number: 6518981

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250